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Apresentação 


A ideia deste livro surgiu a partir da minha experiência pessoal com duas disciplinas 
em bioinformática, uma para o curso de graduação em Biomedicina e uma para o 
Programa de Pós-Graduação em Biologia Celular e Molecular do Centro de 
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul. 

Tanto para formação em nível de graduação quanto pós-graduação, desde cedo me 
deparei com uma ausência quase total de materiais didáticos em português (e naci- 
onais!), de perfil mais geral, aplicável a cursos de graduação, com poucas e 
importantes excessões, que devem ser mencionadas pelo seu papel pioneiro, dentre 
as quais destaco: 

MORGON, Nelson H.; COUTINHO, K. Métodos de Química Teórica e Modelagem Molecular. São 

Paulo: Editora Livraria da Física, 2007. 

MIR, Luis Genômica. São Paulo: Atheneu, 2004. 

À primeira vista, química teórica e bioinformática são assuntos sem correlação. E, 
de fato, as pesquisas nestas áreas "puras" frequentemente apresentam pouca ou 
nenhuma sobreposição. De um lado, temos o estudo das propriedades estruturais e 
eletrônicas de moléculas e, de outro, o estudo de sequências de nucleotídeos, ami- 
noácidos e a busca por assinalamento de funções a estas sequências. Há, assim, 
uma aparente separação entre, por exemplo, campos de força e árvores Bayesia- 
nas. Contudo, esta separação é apenas aparente, tendo em vista que a manifesta- 
ção da função gênica passa por estruturas tridimensionais de biomoléculas. Um 
polimorfismo de nucleotídeo único acarreta em uma mudança na conformação e di- 
nâmica de uma proteína, o que por sua vez pode interferir em sua função. Por outro 
lado, a flexibilidade de regiões de proteínas pode muitas vezes ser relacionada a 
eventos evolutivos, ampliando nosso entendimento do sistema em estudo e permi- 
tindo, assim, a realização de extrapolações a sistemas ortólogos ou parálogos. 

Assim, Bioinformática: da Biologia à Flexibilidade Molecular emprega uma 
definição abrangente para bioinformática, envolvendo qualquer técnica 
computacional aplicada ao estudo de sistemas biológicos (como o próprio nome 
sugere). Busca, por conseguinte, oferecer uma percepção multidisciplinar (ou talvez 
já estejamos beirando a transdisciplinaridade?) da área, abordando tanto aspectos 
relacionados a sequências de nucleotídeos e aminoácidos quanto a estrutura e 
dinâmica de proteínas. Adicionalmente, considerando que técnicas experimentais 
baseadas no uso de computadores devem, idealmente, ter seus resultados 
comparados a técnicas experimentais não-computacionais, este livro também inclui 
capítulos com algumas das técnicas experimentais mais frequentemente 
empregadas na validação dos números que os programas nos oferecem. 

Nesta visão, de certa forma holística, buscamos abordar não somente ácidos nu- 
cleicos e proteínas, mas carboidratos e membranas biológicas. À exceção do último, 
todos são agrupados como biopolímeros buscando facilitar a construção de relações 
entre monômeros formadores, suas conexões e as características dos polímeros re- 
sultantes. Afinal de contas, todas as células possuem membranas, e 2/3 das proteí- 


nas de eucariotos são glicosiladas. Assim , busca-se oferecer ao leitor uma percep- 
ção mais próxima da importância de todas estas biomoléculas para a vida e, em 
muitos casos , sua participação em processos patológicos. 

A linguagem escolhida para este material foi focada nas áreas biológicas e da saúde , 
tendo em vista que estas compreendem talvez o maior volume de problemas alvo 
abordados por estas técnicas. Adicionalmente , destaque foi dado na aplicação das 
ferramentas em detrimento do esmiuçamento de teoria , códigos, metodologias e 
implementações, para as quais um grande número de livros mais avançados e 
específicos está disponível. Em contrapartida, esta linguagem pode contribuir para 
que alunos de cursos de áreas não-biológicas visualizem o problema por um foco 
distinto, aproximando-os assim do problema alvo. 

Cada capítulo foi portanto organizado com um foco principal na formação em 
Bioinformática para cursos de graduação. Há, contudo, diversas inserções ao longo 
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avançados, 
potencialmente úteis a alunos de pós-graduação. Ao final, a definição dos concei- 
tos-chave de cada capítulo foi incluída. Tal foco na graduação nos levou a maximizar 
a tradução de expressões do inglês para o português, mencionando sempre a ex- 
pressão inglesa original, para fins de referência. Contudo, em vários casos, a ampli- 
tude do uso de expressões originadas no inglês nos levou a mantê-las no texto, pois 
a tradução não teria eco nas demais fontes de leitura na área. Outra escolha envol- 
veu a omissão de endereços na web, em decorrência de sua frequente modificação. 
Contudo, a partir do nome das ferramentas, não deve haver dificuldades para que 
os leitores identifiquem-nas pelos buscadores comuns na internet. 

Embora tenhamos nos dedicado a empregar uma linguagem gera! e acessível, creio 
que este esforço estivesse fadado a ser incompleto desde seu início em decorrência 
da amplitude de áreas que compõe a bioinformática. Assim, alguns capítulos serão 
de leitura mais fácil para alunos de cursos com maior formação em bioquímica , ou- 
tros em biologia molecular, ou ainda em programação. Vejo este esforço de cons- 
trução de uma linguagem comum para a área como uma obra em constante 
desenvolvimento e, caso o material seja de proveito para vocês, certamente nos 
dedicaremos a evoluí-lo em uma próxima edição. 

Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em 
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fácil e me- 
nos cansativa nestas telas. E a distribuição do material, gratuita, para um acesso o 
mais democrático possível entre os estudantes. 

Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser úteis, 
contribuindo para sua aproximação à bioinformática, quiçá incentive-os a se apro- 
fundarem na área, agradeço a todos os que contribuiram para a elaboração deste 
material. Sem eles, seu tempo, dedicação, excelência e experiência, todo este es- 
forço não seria possível. 
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1. 0 que é Bioinformática? 



"O todo sem a parte não é todo, 

A parte sem o todo não é parte, 

Mas se a parte o faz todo, sendo parte, 
Não se diga, que é parte, sendo todo." 


Gregório de Matos Guerra (1636-1696) 

1.1. Introdução 

1.2. Origens 

1.3. Problemas alvo 

1.4. Tendências e desafios 


1.1. Introdução 

Gregório de Matos, poeta brasileiro que 
viveu no século XVII, há quase 4ÜÜ anos 
apresentou, na frase de epígrafe deste capí- 
tulo, seu entendimento sobre a indissociabili- 
dade das partes para compreensão do todo. 
No nosso caso, o todo é a bioinformática. As 
partes, contudo, não são tão óbvias quanto se 
possa imaginar em um primeiro momento. 
Tampouco há consenso sobre estas. Assim, 
nossa discussão sobre o que é bioinformática 
não pretende estabelecer definições rígidas, 
mas guias para que o leitor entenda o quão 
complexa e dinâmica é esta jovem ciência. 

Esta complexidade usualmente nos 
passa despercebida. Por exemplo, quando 
pensamos no impacto do projeto genoma hu- 
mano, uma das principais implicações é a me- 
lhoria dos processos terapêuticos acessíveis à 
população. Mas a identificação de um novo 
gene ou mutação em um gene conhecido, por 
mais que seja associado a um processo pato- 
lógico, está a uma grande distância de um no- 
vo fármaco. A partir da sequência, o 
paradigma mais moderno para desenvolvi- 
mento de novos fármacos passa pela carac- 
terização da estrutura tridimensional da 
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proteína codificada. Esta estrutura é então 
empregada para guiar o planejamento racio- 
nal de novos compostos, como se um chavei- 
ro construísse uma chave (o fármaco) a partir 
da fechadura. Por mais que a analogia seja 
simples, ainda serve como base para algumas 
das mais frequentes estratégias de planeja- 
mento de fármacos. E, embora a ideia de que 
este processo é flexível, e não rígido (mais 
como uma mão encaixando em uma luva, 
sendo a mão o fármaco e a luva o receptor) 
date da década de 1960, são processos tão 
complexos que demoramos em torno de 15 
anos para lançar um novo fármaco no mer- 
cado (e este tempo não está diminuindo). 

Assim, ao invés de procurar definições 
restritivas, este livro se propõe a empregar 
definições amplas, que sirvam de suporte pa- 
ra um entendimendo da grande gama de po- 
tencialidades e aplicações da bioinformática, 
buscando suportar inclusive futuras aplica- 
ções da metodologia, ainda em desenvolvi- 
mento ou por serem desenvolvidas. 

Ao mesmo tempo que sequências codi- 
ficantes geram seus efeitos biológicos como 
estruturas tridimensionais, o estudo destas 
pode e muito se beneficiar do estudo de se- 
quências de proteínas relacionadas (por 
exemplo, alças flexíveis tendem a apresentar 
uma elevada variabilidade filogenética). Mes- 
mo o estudo de sequências não codificantes 
pode se beneficiar do conhecimento de estru- 
turas tridimensionais, visto que a regulação 
de sua expressão é realizada por fatores de 
transcrição proteicos. Assim, há uma retro- 
alimentação entre as informações originadas 
em sequências biológicas e em suas respecti- 
vas estruturas 3 D. 

Em linhas gerais, este livro parte do en- 
tendimento de que a bioinformática se refere 
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ao emprego de ferramentas computacionais 
no estudo de problemas e questões biológi- 
cas, abrangendo também as aplicações rela- 
cionadas à saúde humana como o 
planejamento de novos fármacos. 

Neste caminho, da sequência de nucleo- 
tídeos até estruturas proteicas, alcançando 
por fim fármacos, diversas áreas do conheci- 
mento estão envolvidas. Biologia molecular, 
biologia celular, bioquímica, química, física e 
computação são talvez as principais grandes 
áreas do saber envolvidas nesse processo, 
cada uma contribuindo com diversas especia- 
lidades. 

1.2. Origens 

0 que apresentaremos neste livro como 
bioinformática pode ser separado em duas 
grandes vertentes: 

i) a bioinformática tradicional, ou clás- 
sica (pela primazia do nome bioinfor- 
mática), que aborda principalmente 
problemas relacionados a sequências de 
nucleotídeos e aminoácidos, e 

ii) a bioinformática estrutural, que a- 
borda questões biológicas de um ponto 
de vista tridimensional, abrangendo a 
maior parte das técnicas compreendidas 
pela química computacional ou modela- 
gem molecular. 

Podemos traçar como momento chave 
para ambas as vertentes da bioinformática o 
início da década de 1950, quando a revista 
Noture publicou o trabalho clássico sobre a 
estrutura em hélice da molécula de DNA por 
James Watson e Francis Crick (Figura 1-1). 
Neste momento, as bases moleculares para o 
entendimento estrutural da replicação e tra- 
dução do material genético foram apresenta- 
das, permitindo-nos entender como aquela 
"sequência de letras” (as bases do DNA) se 
organizam tridimensionalmente. 

Este trabalho, contudo, deve ser visto 
como parte de um momento histórico, com- 
posto por diversas contribuições fundamen- 
tais para o nosso entendimento de moléculas 
biológicas e suas funções. Dentre estas des- 



Figura 1-1: Watson e Crick em frente a um 
modelo da hélice de DNA. Cavendish 
Laboratory, Universidade de Cambridge, 1953, 
reproduzida sob licença. 

tacam-se os trabalhos de Linus Pauling e 
Robert Corey, no início da década de 1950, e 
de Gopalasamudram N. Ramachandran, no 
início da década de 1960, que ofereceram as 
bases para a compreensão da estrutura tridi- 
mensional de proteínas. 

Desde estes trabalhos até a primeira 
vez em que se relatou o uso de programas de 
computadores para visualizar estruturas tri- 
dimensionais de moléculas passaram-se mais 
de 10 anos quando, em 1966, Cyrus Levinthal 
publica na revista 5cientific American o tra- 
balho desenvolvido no Massachusetts 
Institute of Technology por John Ward e 
Robert Stotz. 

Ainda nesta década se dá o primeiro es- 
forço de sistematização do conhecimento 
acerca da estrutura tridimensional dos efeto- 
res da informação genética, as proteínas, em 
1965, com o Atlas of Protein Sequence ond 
Structure, organizado por diversos autores, 
dentre os quais destacaremos Margaret 
Dayhoff. 

Este destaque se deve ao fato do papel- 
chave exercido pela Dra. Dayhoff na forma- 
ção das raízes do que entendemos hoje por 
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bioinformática, tanto em sua faceta voltada 
para sequências quanto para estruturas. Foi 
uma das pioneiras no uso de computadores 
para o estudo de biomoléculas, incluindo tan- 
to ácidos nucleicos quanto proteínas. Por 
exemplo, é ela que inicia o uso da representa- 
ção de uma única letra para descrever cada 
aminoácido (Tabela 1-1), ao invés das usuais 
três letras, em uma época em que os dados 
eram armazenados em cartões perfurados 
(Figura 2-1). Desenvolveu as primeiras matri- 
zes de substituição e fez importantes contri- 
buições no desenvolvimento dos estudos 
filogenéticos. Também teve participação im- 
portante no desenvolvimento de métodos 
para o estudo de moléculas por cristalografia 
de raios-X (como veremos no capítulo 13). 

Com o desenvolvimento de computado- 
res mais poderosos e com o avanço no en- 
tendimento dos determinantes da estrutura e 
da dinâmica proteica, tornam-se possíveis os 
primeiros estudos acerca da dinâmica e do 
enovelamento de proteínas por simulações de 
dinâmica molecular por Michael Levitt e Arieh 
Warshel, nos anos de 1970, estudos estes 
agraciados com o prêmio Nobel de Química 
em 2013 (Figura 3-1). 

A partir dos trabalhos destes e de ou- 
tros pesquisadores, diversos avanços foram 
feitos progressivamente nos anos que se se- 
guiram, tanto no entendimento de biomolé- 
culas quanto no emprego de técnicas 
computacionais para retroalimentar este en- 
tendimento. Por exemplo, o aumento na ob- 
tenção de informações de alta qualidade 
sobre a estrutura 3 D de biomoléculas vem 
servindo de suporte para o desenvolvimento 
de campos de força cada vez mais precisos, 
enquanto novas abordagens vêm possibilitan- 
do o alinhamento de sequências cada vez 
mais distantes evolutivamente. 

Contudo talvez possamos afirmar que, a 
partir destas bases, os maiores impactos da 
área na ciência estejam se delineando neste 
exato período da história, em que dois impor- 
tantes fatores se manifestam: o avanço (e 
barateamento) no poder computacional e os 
projetos genoma. 

Computadores cada vez mais rápidos e 


Tabela 1-1: Nomes dos 20 aminoácidos codifi- 
cadores de proteínas junto a suas represen- 
tações em 1 e 3 letras. 


Aminoácido Representação Representação 
de 3 letras de 1 letra 


Alanina 

Ala 

Cisteína 

Cys 

Ác. aspártico 

Asp 

Ác. glutâmico 

Glu 

Fenilalanina 

Phe 

Glicina 

Gly 

Histidina 

His 

Isoleucina 

lie 

Usina 

Lys 

Leucina 

Leu 

Metionina 

Met 

Asparagina 

Asn 

Prolina 

Pro 

Glutamina 

Gin 

Arginina 

Arg 

Serina 

Ser 

Treonina 

Thr 

Valina 

Vai 

Triptofano 

Trp 

Tirosina 

Tyr 
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mais baratos nos permitem abordar proble- 
mas, literalmente, inimagináveis há poucos 
anos. Os métodos e a dimensão dos proble- 
mas abordados por um aluno de iniciação ci- 
entífica serão, em sua maioria, totalmente 
obsoletos ao final de seu doutoramento 
(considerado o mesmo nível de impacto dos 
veículos de divulgação). A cada ano que passa 
podemos abordar problemas mais comple- 
xos, de forma mais completa, e mais pesqui- 
sadores com menos recursos podem 
trabalhar nestas áreas de pesquisa, o que 
torna a bioinformática uma das áreas do co- 
nhecimento mais acessíveis para pesquisado- 
res em início de carreira. 

Em contrapartida, esta situação acarre- 
ta na necessidade de atualização e renovação 
dos procedimentos computacionais constan- 
temente para nos mantermos competitivos 
na comunidade científica da área. 0 trabalho 
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Figura 2-1: IBM 7090, computador que Mar- 
garet Dayhoff utilizou no início de seus 
trabalhos (NASA Ames Resarch Center, 1961). 

que alguém tenha publicado com simulações 
por dinâmica molecular (capítulo 8) alguns 
anos atrás, com uma simulação de, digamos, 
10 ns, hoje estaria totalmente desatualizado, 
exigindo no mínimo uma ordem de grandeza a 
mais (idealmente, com replicatas e/ou condi- 
ções adicionais como controle). Como conse- 
quência, as conclusões obtidas em um 
trabalho não necessariamente se manteriam 
em um novo trabalho. Similarmente, uma ár- 
vore filogenética obtida a partir de um deter- 
minado alinhamento e matriz de pontuação há 
20 anos poderia ser diferente hoje, com fer- 
ramentas mais robustas de alinhamento (co- 
mo será visto no capítulo 3). Esta é uma 
situação bastante desafiadora, assim como 
uma grande oportunidade, para os futuros bi- 
oinformatas. 

Mas esta situação por si não é suficiente 
para o aumento explosivo do emprego de es- 
tratégias computacionais no estudo de siste- 
mas biológicos, o que é principalmente devido 
ao projeto Genoma Humano. A partir deste, e 
da popularização de outros projetos genoma 
(capítulo 4), criou-se um gigantesco e cres- 
cente volume de sequências de genes cujas 
relações evolutivas e funcionais precisam ser 
elucidadas, como ponto de partida para novos 
desenvolvimentos terapêuticos. Hoje, é pos- 
sível identificar um novo candidato a receptor 
alvo de novos fármacos a partir de organis- 
mos muito distantes evolutivamente de nós, 
como leveduras, bactérias ou mesmo plantas. 



Arieh Warshel 


Figura 3-1: Agraciados pelo prêmio Nobel de 
química de 2013, os Professores Martin 
Karplus, Michael Levitt e Arieh Warshel. 

0 crescimento deste volume de infor- 
mações ainda está longe de cessar. Estudos 
de transcriptoma, metaboloma ou glicoma 
ainda têm muito a agregar no nosso conheci- 
mento do funcionamento de sistemas bioló- 
gicos, potencializando tanto aplicações 
terapêuticas quanto biotecnológicas. Contudo, 
isto exigirá cada vez mais avanços da bioin- 
formática, seja em hardware, software ou em 
estratégias de análise de dados e construção 
de modelos. 

Um exemplo neste sentido envolve a gi- 
gantesca defasagem entre nossa capacidade 
de lidar com sequências e com estruturas 3D. 
Enquanto em um computador pessoal sim- 
ples podemos realizar alinhamentos com al- 
gumas centenas de sequências sem maiores 
dificuldades, localmente ou na web, depen- 
dendo do método, e recebendo a resposta 
quase que imediatamente, para realizar uma 
simulação por dinâmica molecular de uma 
única proteína precisaríamos, neste mesmo 
computador, de alguns meses. 

Um último aspecto importante nesta 
contextualização inicial da bioinformática, 
dentro da proposta apresentada por este li- 
vro, diz respeito à importância relativa das di- 
ferentes biomoléculas na manifestação da 
informação genética, mantendo a homeosta- 
sia e servindo como alvo de modulação far- 



Martin Karplus 
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macológica ou emprego biotecnológico. Tra- 
dicionalmente, os ácidos nucleicos e as pro- 
teínas receberam a maior atenção enquanto 
alvos da bioinformática, os primeiros como 
repositórios da informação biológica e as últi- 
mas como efetores desta informação. Esta 
percepção, contudo, vem sendo progressiva- 
mente relativizada. Membranas e carboidra- 
tos, a despeito de não estarem codificados 
diretamente no genoma (não há um códon 
para um fosfolipídeo ou para um monossaca- 
rídeo), são fundamentais à homeostasia da 
grande maioria dos organismos em todos os 
domínios da vida. E entender estes papéis 
vem se tornando um importante alvo da bio- 
informática. 

1.3. Problemas alvo 

Considerando o tipo de informação ma- 
nipulada, os problemas e questões abordados 
pela bioinformática podem ser agrupados en- 
tre aqueles relacionados a sequências de bio- 
moléculas e aqueles relacionados à estrutura 
de biomoléculas (Figura 4-1). À primeira vista, 
considerando que de forma geral estruturas 
de proteínas são determinadas por seus ge- 
nes, poderíamos imaginar que lidar com es- 
truturas 3D seria redundante a manipular 
sequências, conjuntos de informações 1D. Esta 
percepção é limitada e não se configura como 
verdade para diversas questões. Na verdade, 
existem aspectos únicos em cada conjunto de 
informação, não diretamente transferíveis 
para o outro. 

Inicialmente, como veremos adiante 
(item 1.4 e capítulo 2), o enovelamento de 
proteínas é um fenômeno extremamente 
complexo e ainda não totalmente compreen- 
dido, de forma que não somos capazes de 
transformar uma sequência linear de amino- 
ácidos (codificada por seu gene) em uma es- 
trutura 3 D (salvo para algumas situações 
específicas, que serão vistas ao longo do li- 
vro). 

Outro aspecto importante é que o eno- 
velamento de proteínas, em muitas situações, 
depende de mais do que sua sequência de 
aminoácidos, envolvendo aspectos como o 


ambiente e o local onde a proteína estará na 
célula ou organismo, a ocorrência de modifi- 
cação co- ou pós-traducionais e a sua intera- 
ção com chaperonas. Para ilustrar o quanto 
este fenômeno é complexo, embora diversas 
sequências com identidade mínima possam 
ter estruturas 3D extremamente parecidas, 
em alguns casos a troca de um ou poucos re- 
síduos de aminoácidos pode modificar total- 
mente a função, chegando até a interferir na 
forma tridimensional que uma proteína adota. 

Em contrapartida, algumas informações 
presentes em sequências gênicas ou mesmo 
peptídicas não são necessariamente observá- 
veis em estruturas tridimensionais. Por 
exemplo, regiões promotoras ou reguladoras 
da expressão gênica são facilmente descritas 
como informações 1D, e peptídeos sinal ou ín- 
trons estão normalmente ausentes nas for- 
mas nativas de proteínas, sendo mais 
facilmente observáveis por sequências das 
biomoléculas em questão. 

Adicionalmente, estruturas 3D de mo- 
léculas são formas muito mais complexas de 
serem manipuladas que sequências 1D, o que 
agrega uma série de dificuldades nos estudos 
de bioinformática. Assim, diversas tarefas 
tendem a ser muito simplificadas (ou mesmo 
de outra forma não seriam possíveis atual- 
mente) quando trabalhamos com sequências 
em vez de estruturas. Por exemplo, a identifi- 
cação de uma assinatura para modificação 
pós-traducional é muito mais ágil em uma 
sequência do que em um conjunto de milhares 
de átomos distribuídos em um espaço tridi- 
mensional. 

Por fim, talvez o motivo mais prático 
para separarmos as duas abordagens se re- 
fere à facilidade de obtenção das informa- 
ções. Os métodos experimentais para 
sequenciamento de ácidos nucleicos estão 
muito mais avançados do que os métodos 
para determinação da estrutura 3D de bio- 
moléculas. A diferença de capacidade de de- 
terminação dos dois conjuntos de dados é de 
ordens de grandeza. 

Questões relacionadas a sequências 
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Figura 4-1: Representação de algumas das principais áreas da bioinformática. As metodologias 
que lidam majoritariamente com estruturas 3D estão representadas em laranja, enquanto as 
metodologias envolvidas principalmente com sequências estão representadas em verde. 
Devemos lembrar, contudo, que esta separação é imperfeita. Por exemplo, a modelagem 
comparativa parte de sequências, a função de um gene pode ser determinada pela estrutura da 
proteína associada. 


A manipulação de sequências é menos 
custosa computacionalmente, nos possibili- 
tando lidar com genomas inteiros. Isto permi- 
te realizar análises em indivíduos ou mesmo 
populações de indivíduos, nos aproximando do 
entendimendo dos organismos em sua com- 
plexidade biológica. Podemos traçar a história 
evolutiva de um conjunto de organismos ou 
construir redes de interação entre centenas 
ou milhares de moléculas de um determinado 
organismo, tecido ou tipo celular. Em linhas 
gerais, os objetos de estudo relacionados a 
sequências de biomoláculas incluem: 

i) comparações entre sequências (ali- 
nhamento): 

ii) identificação de padrões em se- 
quências (assinaturas): 

Ui) caracterização de relações evoluti- 
vas (filogenia); 

iv) construção e anotação de geno- 
mas: 

v) construção de redes (biologia de 
sistemas). 


Vale destacar que estas análises podem receber a 
contribuição de estudos envolvendo a estrutura das bi- 
omoléculas de interesse ou mesmo ser validadas por 
estas. Por exemplo, resíduos conservados evolutiva- 
mente possuem grande chance de possuírem papel 
funcional (como atuando na catálise) ou estrutural 
(estabilizando a estutura proteica). Assim, comparar 
um alinhamento à estrutura 3D pode tanto explicar 
quanto oferecer novas abordagens e considerações ao 
significado de conservações de resíduos maiores ou 
menores em conjuntos de sequências. 

Questões relacionadas a estruturas 

Ao contrário da manipulação de se- 
quências, estruturas exigem um maior poder 
de processamento para serem manipuladas. 
Na prática, podemos manipular uma ou um 
pequeno punhado de estruturas simultanea- 
mente (embora este número venha crescendo 
progressivamente). Neste caso, o foco costu- 
ma ser o entendimento de moléculas e dos 
eventos mediados por estas, individualmente, 
incluindo: 
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/) obtenção de modelos 3 D para pro- 
teínas e outras biomoléculas (por 
exemplo, modelagem comparativa); 
ii) identificação do modo de interação 
de moléculas (atracamento); 

Ui) seleção de compostos com maior 
potencial de inibição (atracamento); 

iv) caracterização da flexibilidade mo- 
lecular (dinâmica molecular); 

v) avaliação do efeito de mudanças na 
estrutura e ambiente molecular na di- 
nâmica e função de biomoléculas (dinâ- 
mica molecular). 

0 uso de sequências para alimentar estudos estru- 
turais á mais comum na construção de modelos tridi- 
mensionais de proteínas a partir de suas sequências 
codificadoras, no método denominado modelagem 
comparativa (capítulo 7). Contudo, outras relações ex- 
tremamente úteis podem ser estabelecidas. Por exem- 
plo, por serem estruturas usualmente flexíveis, alças 
tendem a possuir uma maior capacidade de acomodar 
mutações ao longo da evolução. Isto permite uma 
comparação entre resultados de alinhamentos e, por 
exemplo, perfis de flexibilidade observáveis através de 
simulações por dinâmica molecular. 

1.4. Tendências e desfios 

Como uma área em rápido desenvolvi- 
mento, a bioinformática exige de seu prati- 
cante uma constante atenção a novas 
abordagens, métodos, requerimentos e ten- 
dências. Programas podem se tornar rapida- 
mente ineficientes comparados a novas 
ferramentas ou mesmo obsoletos. Avanços 
de hardware podem (e na verdade vem fa- 
zendo isso) catapultar o nível de exigência 
metodológica pelas revistas de ponta. E há 
algumas áreas em específico nas quais a co- 
munidade científica vem concentrando esfor- 
ços. São por conseguinte áreas de grande 
impacto potencial e grande competição na li- 
teratura científica, dentre as quais destacare- 
mos algumas abaixo. 

Processamento em CPU e GPU 

CPUs ( Centrai Processing Units ou uni- 


dades de processamento central) ou sim- 
plesmente processadores (ou ainda micro- 
processadores) são partes dos computadores 
responsáveis pela execução das instruções 
estabelecidas pelos programas. Desde seu 
surgimento em torno da metade do século 
XX, as CPUs tornaram-se progressivamente 
mais complexas, confiáveis, rápidas e baratas. 
Esse processo foi previsto pioneiramente por 
Gordon E. Moore, no que ficou sendo conheci- 
do desde então como a lei de Moore. Segundo 
esta lei, o número de transistores em um 
processador (na verdade em qualquer circuito 
integrado) dobra aproximadamente a cada 2 
anos (Figura 5-1). 0 impacto do fenômeno 
descrito nesta observação na vida moderna é 
enorme, envolvendo desde nossos computa- 
dores, celulares e câmeras digitais até a pre- 
cisão de estudos climáticos (com impacto na 
prevenção de catástrofes e na agricultura), 
medicina, engenharia, indústria bélica e aero- 
espacial. Com o aumento da velocidade e ba- 
rateamento das CPUs, podemos a cada ano 
construir modelos mais precisos de fenôme- 
nos biológicos progressivamente mais com- 
plexos. Na prática, o avanço da bioinformática 
está ligado intrinsecamente à lei de Moore. 

Em uma CPU podemos encontrar não 
somente um microprocessador, mas mais de 
um, o que é chamado multi-processamento e 
estas CPUs de processadores de múltiplos 
núcleos ( muLti-core processing). Hoje, a gran- 
de maioria dos processadores empregados 
em computadores, notebooks e celulares já 
possui múltiplos núcleos. Se o programa que 
estamos utilizando for adaptado para este ti- 
po de processamento, o cálculo poderá ser 
distribuído pelos núcleos de processamento, 
tornando o cálculo significativamente mais 
rápido. A grande maioria dos aplicativos em 
bioinformática já possui versões compatíveis 
com processamento em múltiplos núcleos, e 
devemos estar atentos à escolha destas ver- 
sões e à instalação de forma que essa carac- 
terística esteja funcional, sob pena de 
subutilização da CPU. 

Já GPUs ( GraphicaL Processing Units ou 
unidades de processamento gráfico) são mi- 
croprocessadores desenvolvidos inicialmente 


8 


1. 0 que é Bioinformática? 



2 .600.000,000 
1.000.000.000 - 

100.000.000- 

s 

o 

2 10.000.000- 

s 

g 

-g 1.000.000- 

0 

1 

Z 100.000- 


10 . 000 - 

2.300- 



I I I I I 

1971 1980 1990 2000 2011 

Data de Introdução 

Figura 5-1: Representação da Lei de Moore, in- 
dicando o aumento no número de transistores 
em microprocessadores no período de 1971 a 
2011. Adaptada de William Wegman, 2011 
(Creative Commons). 


GPUs. Desde o alinhamento de sequências à 
filogenia, do atracamento molecular à dinâ- 
mica molecular, múltiplos pacotes estão dis- 
poníveis, tanto pagos quanto gratuitos, 
capazes de explorar a computação em GPU, e 
este número vem crescendo a cada ano, 
apontando para uma nova tendência na área. 
0 usuário deve, contudo, observar seu pro- 
blema alvo, pois a aceleração fornecida pela 
GPU dependerá das características do pro- 
blema em questão e da eficiência e portabili- 
dade do código empregado. 

A combinação de CPUs e GPUs com 
múltiplos núcleos fez com que a capacidade 
de processamento de alguns supercomputa- 
dores de há alguns anos já esteja disponível 
para computadores pessoais, nos chamados 
supercomputadores pessoais. 


como unidades especializadas na manipulação 
de representações gráficas em computado- 
res. Estão, assim, normalmente localizadas 
nas placas de vídeo de nossos computadores. 
0 termo GPU foi popularizado a partir de 1999 
com o lançamento da placa de vídeo 
GeForce256, comercializada pela Nvidia. 

0 desenvolvimento das GPUs remonta 
ao início dos anos de 1990, com o aumento do 
emprego de gráficos em 3 D nos computado- 
res e videogames. De fato, alguns dos pri- 
meiros exemplos de hardware dedicado ao 
processamento em 3 D estão associados a 
consoles como Playstation e Nintendo 64. 
Atualmente, enquanto CPUs possuem até em 
torno de uma dezena de núcleos de proces- 
samento, GPUs podem facilmente alcançar 
centenas ou mesmo milhares de núcleos de 
processamento, permitindo uma grande ace- 
leração na manipulação de polígonos e for- 
mas geométricas, encontradas em aplicações 
3D (como os jogos) e sua renderização (Figura 
6-1). Tal aumento de performance ao dividir a 
carga de trabalho em um grande número de 
núcleos de processamento abriu um grande 
horizonte de possibilidades em computação 
científica, implicando em grande aumento na 
velocidade de manipulação de dados. 

Diversos aplicativos em bioinformática 
vêm sendo portados para trabalhar com 


Predições a partir de sequências 

Quando estudamos uma sequência de 
nucleotídeos de DNA desconhecida é impor- 
tante determinar seu papel funcional, por 
exemplo, se codificante de proteínas ou não. 
E, sendo codificante, qual proteína é produzida 
ao final da tradução e qual sua função. Tais 
predições são realizadas a partir de algorit- 
mos construídos a partir de bancos de dados 



Figura 6-1: Representação dos núcleos de 
processamento em CPUs e GPUs. 0 grande 
número de núcleos em GPUs permite a reali- 
zação de cálculos complexos rapidamente. 
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existentes, relacionando determinada se- 
quência a características e propriedades es- 
pecíficas. Contudo, somente uma pequena 
quantidade de organismos teve seu genoma 
sequenciado até o momento e, destes, so- 
mente uma pequena parte de genes teve sua 
função determinada experimentalmente. De- 
vemos, portanto, lembrar que as predições 
destes modelos estão relacionadas a quão 
completos foram os bancos de dados que os 
basearam. E que estes estão em contínuo 
avanço (ou seja, uma predição feita há 5 anos 
não necessariamente será igual a uma predi- 
ção hoje que, por sua vez, pode ser diferente 
de uma predição de função gênica daqui a 5 
anos - discutiremos no capítulo 3 alguns indi- 
cadores da qualidade dessas associações). 

Predição de energia livre 

Os fenômenos moleculares são regidos 
pela termodinâmica, tanto para reações quí- 
micas na síntese de um novo fármaco quanto 
à ação da DNA polimerase ou ao enovela- 
mento de proteínas. Entender termos como 
entropia, entalpia e energia livre torna-se, as- 
sim, fundamental na adequada descrição 
destes fenômenos e, a partir desta, sua pre- 
visão computacional. Quando a medida destas 
variáveis se tornar precisa o bastante, pode- 
remos esperar a substituição de diversos ex- 
perimentos em bancada por cálculos em 
computadores mas, infelizmente, ainda não 
chegamos neste momento. 

Predições de energia livre tem impacto 
direto na identificação da estrutura 2 ária de 
moléculas de RNA, na localização de regiões 
do DNA para ligação de reguladores da 
transcrição, para a especificidade de enzimas 
por substratos e receptores por ligantes ou 
moduladores (fisiológicos ou terapêuticos, is- 
to é, fármacos). Assim, diversos métodos fo- 
ram desenvolvidos para a obtenção destas 
medidas, tais como a perturbação da energia 
livre, a integração termodinâmica, a energia 
de interação linear, a metadinâmica e diversas 
estratégias empíricas voltadas ao pareamen- 
to de nucleotídeos ou atracamento molecular. 


A despeito desta diversidade de estra- 
tégias, a predição da energia livre em proces- 
sos moleculares continua sendo um grande 
desafio. Em decorrência do elevado custo 
computacional associado a estes cálculos, di- 
ferentes tipos de simplificações e generaliza- 
ções precisam ser realizadas, 
comprometendo nossa capacidade de em- 
pregá-los de forma ampla e fidedigna. 

Enovelamento de proteínas 

Como veremos adiante no livro, o eno- 
velamento de proteínas é um dos processos 
mais complexos conhecidos pelo ser humano. 
0 número de estados conformacionais possí- 
veis para uma proteína pequena é gigantesco, 
dos quais um ou alguns poucos serão obser- 
váveis em solução em condições nativas. Os 
métodos experimentais usualmente empre- 
gados para tal, a cristalografia de raios-X e a 
ressonância magnética nuclear, são métodos 
caros e ainda possuem algumas limitações 
importantes em determinadas situações, 
apontando para a Bioinformática um potencial 
e importante papel na determinação da es- 
trutura de biomoléculas. 

Mas para que precisamos saber como é 
a estrutura tridimensional de uma determi- 
nada biomolécula? Esta pergunta possui mui- 
tas respostas, incluindo a compreensão de 
como a natureza evoluiu, como os organis- 
mos funcionam, como os processos patológi- 
cos se desenvolvem (e podem ser tratados) e 
como as enzimas exercem suas funções ca- 
talíticas. Tomemos este último caso como 
exemplo. 

Com o entendimento de como proteínas 
se enovelam, será possível construir novas 
proteínas, capazes de adotar formas que a 
natureza não previu até o momento, enzimas 
aptas a catalizar reações de importância eco- 
nômica, com menor toxicidade, o que terá por 
si impacto ambiental. Ainda, abre-se a possi- 
bilidade de planejamento racional de enzimas 
e proteínas envolvidas na detoxificação de 
áreas. Esta linha de pesquisa está em seu iní- 
cio, e o número de grupos de pesquisa dedi- 
cados ao redor do mundo para trabalhar na 
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engenharia de proteínas vem aumentando 
gradativamente. Mas, infelizmente, ainda não 
possuímos uma base teórica que nos permita 
entender e prever, com precisão e de forma 
ampla, a estrutura 3 D de proteínas. 

Contudo, esta problemática vem sendo 
abordada a cada ano com maior sucesso. Pa- 
ra proteínas com no mínimo em torno de 
30% de identidade com outras proteínas de 
estrutura 3D já determinada, podem ser obti- 
dos modelos de qualidade próxima àquela de 
métodos experimentais. Em outros casos, 
estruturas cristalográficas podem ser refina- 
das por métodos computacionais, agregando 
explicitamente informações ausentes nos ex- 
perimentos (como a flexibilidade molecular). 
Outro exemplo é a construção de alças flexí- 
veis, de difícil observação experimental mas 
que podem ser abordadas por diferentes mé- 
todos computacionais. 

Para ácidos nucleicos, a construção 
computacional de estruturas 3D de moléculas 
de DNA é tarefa relativamente simples, que 
usualmente não requer os custos associados 
a experimentos de cristalografia e ressonân- 
cia magnética. Para moléculas de RNA, con- 
tudo, a elevada flexibilidade traz consigo 
desafios adicionais. Mesmo assim, em diver- 
sos casos as estratégias computacionais 
possuem vantagens em lidar com moléculas 
muito flexíveis. Talvez o caso mais emblemá- 
tico neste sentido sejam as membranas bio- 
lógicas. Estas macromoléculas biológicas não 
são observáveis nos experimentos usuais ca- 
pazes de determinar estruturas com resolu- 
ção atômica, embora através de simulações 
por dinâmica molecular tenham suas estru- 
turas descritas com elevada fidelidade. 

Outro caso em que os métodos compu- 
tacionais parecem possuir vantagens em re- 
lação aos experimentais envolve os 
carboidratos. Embora sejam moléculas em 
vários aspectos mais complexos que proteí- 
nas, carboidratos biológicos não parecem so- 
frer enovelamento nem adotar tipos de 
estrutura 2 ária em solução (embora o façam 
em ambiente cristalino), o que os torna na 
prática um problema estrutural mais simples 
que proteínas. De fato, vem sendo possível 


prever a estrutura de glicanas com graus va- 
riados de complexidade com grande precisão, 
um campo no qual os métodos experimentais 
possuem grandes dificuldades em abordar. 

Validação experimental 

Em linhas gerais, métodos computacio- 
nais devem ser comparados a dados experi- 
mentais para validação. Esta afirmação, 
embora tomada geralmente como um axio- 
ma, é bastante simplista, e não expressa cla- 
ramente a complexidade e desafio nesta 
tarefa. Alguns pontos específicos incluem: 

i) nem sempre há dados experimentais 
disponíveis para validar os cálculos e si- 
mulações realizados. Por exemplo, este 
é o caso com frequência para alinha- 
mentos de sequências, para relações fi- 
logenéticas, para predições ab initio da 
estrutura de proteínas e para a descri- 
ção da flexibilidade de biomoléculas ob- 
tidas por dinâmica molecular. Nem 
sempre há fósseis ou outras evidências 
arqueológicas para validar antepassa- 
dos evidenciados por estudos filogené- 
ticos. Por outro lado, não há métodos 
experimentais com resolução atômica e 
temporal, de forma que a validação de 
simulações por dinâmica molecular é 
em grande medida indireta (uma estru- 
tura obtida por cristalografia é única, 
sem variação temporal, enquanto os 
modelos oriundos de ressonância mag- 
nética nuclear correspondem a médias 
durante o período de coleta do dado); 

ii) os dados experimentais devem ser 
adequados ao estudo computacional 
empregado. Assim, se estamos estu- 
dando a formação de um complexo fár- 
maco-receptor, resultados in vivo 
devem ser evitados, enquanto os expe- 
rimentos in vitro preferidos. Se adminis- 
tramos um determinado fármaco por 
via oral a um camundongo, este fárma- 
co passará por diversos processos far- 
macocinéticos (absorção, distribuição, 
metabolização e excreção) que muito 
provavelmente irão interferir na ação 
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frente ao receptor alvo. Portanto, para 
estudos de atracamento, dados in vivo 
devem ser evitados; 

Ui) a margem de erro do dado experi- 
mental deve ser considerada quando 
comparada aos dados computacionais. 
Frequentemente a margem de erro para 
experimentos na bancada é maior que 
para aqueles realizados em computa- 
dores, limitando a extensão da valida- 
ção. Usando novamente o exemplo de 
estudos de atracamento, se a afinidade 
experimental de um fármaco por seu 
receptor é de 0,11 ± 0,04 pM, valores 
teóricos de 97 nM a 105 nM estarão 
corretos. Por outro lado, frequente- 
mente os resultados experimentais são 
expressos como a menor dose testada, 
por exemplo, > 5 pM. Assim, qualquer 
valor maior que 5 pM será validado pelo 
dado experimental, o que cria uma 
grande dificuldade de validação (como 
comparar 5 a, digamos, 1.000?); 
iv ) as condições nas quais os experi- 
mentos foram realizadas devem ser 
observadas com estrito cuidado. Tem- 
peratura, contaminantes, sais e concen- 
trações diferentes daquelas no 
ambiente nativo são frequentemente 
requeridas por alguns métodos experi- 
mentais, e podem interferir nos resulta- 
dos. Por exemplo, a melitina (principal 
componente do veneno da abelha Apis 
melLifera) aparece como uma hélice em 
estudos cristalográficos mas é deseno- 
velada no plasma humano, como pode 
ser confirmado por experimentos de di- 
croismo circular com força iônica com- 
patível com o plasma. 

Assim, a despeito do axioma da exigên- 
cia de validação experimental para estudos 
computacionais, não é infrequente que um 
dado computacional apresente maior preci- 
são que um dado obtido na bancada. Na reali- 
dade, um modelo computacional, 
frequentemente chamado de teórico em opo- 
sição aos métodos ditos experimentais, não é 
nada além de um experimento computacional 


que, infelizmente, nem sempre tem contra- 
parte em experimentos de "bancada". E esses 
adjetivos não carregam consigo qualificações 
quanto à confiabilidade dos resultados gera- 
dos. 
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2.1. Introdução 

Por mais que possam apresentar enor- 
mes diferenças em suas características os 
seres vivos, desde bactérias a mamíferos, 
passando por plantas e fungos, são compos- 
tos aproximadamente pelos mesmos tipos de 
moléculas. Estes compostos incluem proteí- 
nas, ácidos nucleicos, lipídeos e carboidratos, 
moléculas nas quais a vida como conhecemos 
é baseada. 

Cada uma destas classes de biomolécu- 
las apresenta, contudo, enormes variações de 
forma, estrutura e função na natureza, o que 
possibilita a gigantesca variedade e complexi- 
dade de manifestações da vida em nosso pla- 
neta. Mesmo em estruturas que não são 
normalmente consideradas vivas, como é o 
caso dos vírus, estas biomoléculas são tam- 
bém encontradas e se mostram essenciais à 
execução de suas funções, sejam estas pato- 
lógicas ou não. 

Independentemente da forma pela qual 


Hugo Verli 


a vida se manifesta, a informação que a rege 
está armazenada nas moléculas de DNA. 
Contudo, tais dados não são usados direta- 
mente, mas através de uma molécula inter- 
mediária, o RNA (mais precisamente o 
RNAm), sintetizado por um processo denomi- 
nado transcrição (uma molécula de ácido 
nucleico é transcrita em outra molécula de 
ácido nucleico). Esta molécula de RNAm irá 
servir como molde para a síntese de proteí- 
nas, em um processo chamado de tradução 
(uma molécula de ácido nucleico é traduzida 
em uma molécula de proteína). As proteínas, 
assim expressas, irão reger a maioria dos fe- 
nômenos relacionados à função dos organis- 
mos e à perpetuação da vida (embora 
diversos outros processos sejam modulados 
por outras biomoléculas). Esta informação 
segue um sentido tão conservado na natureza 
que foi convencionado denominá-lo como 
dogma central da biologia molecular (Figura 
1 - 2 ). 

A importância do dogma central no en- 
tendimento da informação e função biológicas 
pode ser exemplificada no fato de que ele 
aborda os três tipos mais comuns de molé- 
culas estudadas por técnicas de bioinformáti- 
ca, o DNA, o RNA e as proteínas, 
estabelecendo um fluxo de informação uni- 
versal à vida como conhecemos. Adicional- 
mente, a efetivação da informação genética, 
através das proteínas, acarreta na construção 
e manutenção de outras biomoléculas, igual- 
mente essenciais ao desenvolvimento da vida, 
como carboidratos e lipídeos. Em decorrência 
de sua elevada massa molecular, proteínas, 
ácidos nucleicos, lipídeos agregados em 
membranas e carboidratos complexos são 
chamados de macromoléculas. 

Embora carboidratos e lipídeos não estejam explici- 
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Replicação 


XIXMXM DMA 



Figura 1-2: Representação do dogma central 
da biologia molecular, no qual o fluxo de 
informação em sistemas biológicos é 
descrito, desde seu armazenamento no DNA 
até a manifestação da função biológica. 0 es- 
quema tradicional sofreu a adição do proces- 
so de enovelamento de de reconhecimento 
molecular devido ao seu caráter fundamental 
para a manifestação da função gênica. 
Adaptado de Hupá, 2012. 

tamente inseridos no dogma central, não devemos mi- 
nimizar sua importância. Apesar de por muito tempo 
estes compostos terem sido reconhecidos simples- 
mente por papéis energéticos e estruturais, ambos 
vêm sendo demonstrados como envolvidos em inúme- 
ros fenômenos biológicos, como na glicosilação de 
proteínas e na formação de jangadas lipídicas. Estes, 
por sua vez, podem interferir diretamente na execução 
da função de proteínas e na homeostasia dos organis- 
mos. 

Não somente macromoléculas são importantes bi- 
ologicamente. Proteínas sintetizam uma infinidade de 
compostos de baixa massa molecular, ou micromolé- 
culas, que atuam como neurotransmissores, sinaliza- 
dores e moduladores dos mais variados tipos 
representando, portanto, diferentes tipos de informa- 
ção em sistemas biológicos. Por exemplo, a infecção 
do nosso organismo por bactérias desencadeia um 
processo inflamatório mediado por derivados lipídicos 
denominados prostaglandinas. Para combater micro- 
-organismos competidores, fungos e bactérias produ- 
zem pequenos compostos com atividade antibiótica, 


muitos destes usados até hoje como fármacos. Desta 
forma, se a bioinformática se dedica ao estudo, por 
ferramentas computacionais, dos fenômenos relacio- 
nados à vida, o estudo de micromoléculas também 
torna-se foco da bioinformática ao abordar compostos 
relacionados à manutenção fisiológica ou terapêutica 
(neste caso, no planejamento de novos candidatos a 
agentes terapêuticos). 

As técnicas modernas de bioinformática 
são capazes de lidar com todas estas biomo- 
léculas que, contudo, possuem particularida- 
des derivadas de suas diferenças químicas. 
Tais aspectos devem ser conhecidos de forma 
a permitir a construção de modelos compu- 
tacionais mais precisos e adequados ao estu- 
do dos mais diversos aspectos relacionados à 
vida. 

Não há uma forma única de representar 
as diferentes moléculas biológicas. Cada es- 
tratégia de representação possui suas vanta- 
gens e desvantagens, que devem ser 
avaliadas de acordo com o estudo em anda- 
mento. Estratégias com menor volume de in- 
formação associado possuem menor custo 
computacional e, portanto, nos permitem 
avaliar rapidamente grandes quantidades de 
dados, por exemplo, genomas inteiros de di- 
ferentes organismos, cada um contendo de- 
zenas de milhares de proteínas. Por outro 
lado, estratégias com maior volume de infor- 
mação associado acarretam em custo com- 
putacional gigantesco nos limitando a, por 
exemplo, um punhado de proteínas, de dois ou 
três organismos. 0 trânsito por tal disparida- 
de é um dos grandes desafios atuais para o 
profissionalquetrabalha com bioinformática. 

2.2. Macromoléculas biológicas 

As biomoléculas descritas no dogma 
central da biologia molecular, proteínas, DNA 
e RNA, são o que chamamos de biopolímeros, 
isto é, polímeros produzidos pelos seres vi- 
vos. Somam-se a este grupo de moléculas os 
carboidratos, que também podem ser encon- 
trados como polímeros em meio biológico. 

As propriedades de um polímero tor- 
nam-se consequência das propriedades de 
suas unidades monoméricas constituintes. No 
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caso dos biopolímeros, os monômeros podem 
ser aminoácidos, nucleotídeos e monossaca- 
rídeos. Assim, o conhecimento destas unida- 
des básicas irá auxiliar diretamente no estudo 
de suas formas poliméricas e, por conseguin- 
te, das funções biológicas destes polímeros 
sintetizados na natureza. 

Ácidos nucleicos 

Os compostos denominados ácidos 
nucleicos são polímeros sintetizados a partir 
de unidades denominadas nucleotídeos. Os 
nucleotídeos são formados por três partes 
constituintes: uma base nitrogenada, um car- 
boidrato e um grupo fosfato. A base nitroge- 
nada pode ser adenina (A), guanina (G), 
citosina (C), uracila (U) ou timina (T), enquanto 
a parte sacarídica poderá ser p-D-ribose (fre- 
quentemente abreviada simplesmente como 
ribose, para o RNA) ou a 2-desoxi-p-D-ribose 
(usualmente abreviada como desoxirribose, 
para o DNA) (Figura 2-2). Nas moléculas de 
ácidos nucleicos, os nucleotídeos são ligados 
através da denominada ligação fosfodiéster 
(ver adiante). 

Quando a base nitrogenada está ligada 
ao carboidrato, na ausência do grupo fosfato, 
os compostos gerados são denominados nu- 
cleosídeos. Formados por ligação de diferen- 
tes nucleotídeos à p-D-ribose temos a 


Base Nitrogenada Carboidrato Fosfato 



Figura 2-2: Representação esquemática de 
um nucleotídeo e suas variações na base ni- 
trogenada e no carboidrato. 


adenosina, a guanosina, a citidina, a uridina e a 
timidina. A estes compostos podem ainda se 
ligar diferentes números de grupos fosfato. 
Assim, a adenosina pode se apresentar mo- 
nofosfatada (AMR do inglês adenosine 
monophosphate), difosfatada (ADR do inglês 
adenosine diphosphate) ou ainda trifosfatada 
(ATR do inglês adenosine triphosphate). 

Conforme veremos adiante, carboidratos apresen- 
tam características conformacionais específicas, como 
sua capacidade de deformar seu anel em diferentes 
estados conformacionais. Esta característica se soma 
à grande flexibilidade da ligação fostodiéster na criação 
de um esqueleto bastante flexível para ácidos 
nucleicos. Em contrapartida a esta flexibilidade da par- 
te sacarídica dos nucleotídeos, cada base nitrogenada á 
essencialmente planar, uma vez que constituem-se de 
anéis aromáticos, e portanto apresentam flexibilidade 
bastante reduzida. 

Proteínas 

As proteínas são polímeros sintetizados 
pelas células a partir de aminoácidos. São 
talvez as biomoléculas mais versáteis na na- 
tureza, sendo capazes de adotar uma gigan- 
tesca possibilidade de arranjos 
tridimensionais, não encontrada nos demais 
biopolímeros. Não por acaso, constituem-se 
no principal produto direto da informação ge- 
nética, a partir da tradução do RNAm. 

0 genoma codifica diretamente 20 ami- 
noácidos (22 contando selenocisteína e pirro- 
lisina, que são codificadas por codons de 
parada) para composição de proteínas (Figura 
3-2), embora outros resíduos de aminoácidos, 
não codificados no genoma (Figura 4-2), pos- 
sam ser sintetizados a partir destes e exercer 
funções bastante específicas, como o ácido y- 
amino butírico (GABA), um neurotransmissor 
inibitório no sistema nervoso central, ou co- 
mo o resíduo ácido y-carbóxi glutâmico (GLA), 
constituinte de diversas proteínas plasmáti- 
cas e fundamental na hemostasia. 

Os aminoácidos codificados no genoma 
apresentam algumas características bem de- 
finidas e compartilhadas entre si. Todos os 
resíduos apresentam uma região comum, in- 
dependente do resíduo. Esta região é denomi- 
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Representação 2D de um 
resíduo de aminoácido dentro 
de uma sequência polipeptídica 


Representação 3D de um 
resíduo de aminoácido dentro 
de uma sequência polipeptídica 
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Figura 3-2: Estrutura dos aminoácidos codificados no genoma, organizados segundo as propri- 
edades de suas cadeias Laterais. No topo o esqueleto peptídico é representado como encontra- 
do dentro de uma proteína, tanto em sua forma 2D quanto 3D. Nesta última, o grupo R (cadeia 
lateral) está apresentado como uma esfera amarela, enquanto a continuação da cadeia poli- 
peptídica como esferas verde-escuras. As cadeias Laterais estão apresentadas em sua ionização 
mais comum, plasmática. 


nada esqueleto peptídico, e é composta pelo 
grupo amino, pelo grupo ácido carboxílico e 
pelo átomo de carbono que liga estes dois 
grupos, denominado carbono a (Ca). A dife- 
rença entre estes resíduos está no grupa- 
mento ligado ao Ca, chamado cadeia lateral 
(Figura 3-2). 

Enantiômeros são compostos que, diferindo so- 
mente no arranjo de seus átomos no espaço (como no 
caso de L-Ser e D-Ser), correspondem um à imagem 
especular do outro (isto é, uma é o reflexo em um es- 


pelho da outra). 

À exceção da glicina, todos os aminoácidos são qui- 
rais, em decorrência da presença de quatro substiuin- 
tes diferentes ligados ao Ca. Salvo casos específicos, 
todos os aminoácidos quirais são encontrados em so- 
mente uma forma enantiomérica, L. Como conse- 
quência, todas as proteínas são quirais, e isto tem 
implicações importantes em fenômenos bioquímicos e 
na prática terapêutica. 

Dois enantiômeros interagem de forma idêntica 
com compostos que não sejam quirais. Por exemplo, a 
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Selenocisteína y-Carbóxiglutamato 4-Hidroxiprolina 

Figura 4-2: Exemplos de aminoácidos encon- 
trados em nosso organismo mas não codifi- 
cados no genoma humano. 


interação de L-Ser e D-Ser com a água á idêntica. Em 
contrapartida, compostos quirais interagem diferente- 
mente com cada enantiômero. Assim, a interação de L- 
Ser e D-Ser com uma dada proteína seria diferente. 
Assim, se tivermos um fármaco quiral, uma de suas 
formas enantioméricas será ativa e a outra provavel- 
mente inativa, menos ativa ou mesmo tóxica. 

0 esqueleto peptídico de aminoácidos apresenta um 
grupo do tipo ácido carboxílico somente em aminoáci- 
dos livres, monoméricos, ou na posição terminal da 
proteína, denominada região C-terminal (o final da se- 
quência polipeptídica). Da mesma forma, só encontra- 
mos o grupo amino na região demominada N-terminal 
(o início da sequência polipeptídica). À exceção destas 
extremidades, os grupos amino e carboxílico reagem, 
dando origem a um grupo amida. Assim, dentro de 
uma proteína, cada aminoácido contribui com um um 
átomo de nitrogênio e com uma carbonila para a for- 
mação de uma amida contida no esqueleto peptídico. 

Os aminoácidos frequentemente são 
agrupados de acordo com as propriedades de 
suas cadeias laterais (Figura 3-2). Inicialmen- 
te, podem ser separados em resíduos polares 
e apoiares. Os resíduos polares incluem ami- 
noácidos não-carregados e carregados (com 
carga positiva ou negativa), enquanto os resí- 
duos apoiares incluem aminoácidos aromáti- 
cos e alifáticos (não aromáticos). 

As propriedades dos aminoácidos são altamente in- 


fluenciadas pelo pH do meio circundante. De acordo 
com sua acidez ou basicidade, a carga dos resíduos po- 
de ser modificada e, por conseguinte, algumas propri- 
edades da proteína. Assim, dependendo do 
compartimento celular, uma mesma proteína pode 
apresentar ionização distinta de seus resíduos de ami- 
noácidos e, por conseguinte, propriedades eletrostáti- 
cas diferentes. Tais características destacam a 
importância de uma avaliação adequada do estado de 
ionização dos resíduos de aminoácidos das proteínas 
em estudo, principalmente o resíduo de histidina. 

Durante a síntese proteica, os aminoáci- 
dos são conectados através da denominada 
ligação peptídica (ver adiante). Neste proces- 
so, o grupo carboxilato de um resíduo e o o 
grupo amino de outro resíduo de aminoácido 
reagem, dando origem a um grupo amida que 
compõe a ligação peptídica. 

Carboidratos 

Carboidratos compõem um terceiro 
grupo de biomoláculas. São compostos que, 
ao contrário das proteínas, não estão codifi- 
cados diretamente no genoma. Enquanto a 
síntese de proteínas é guiada por um molde (a 
molécula de RN Am), a síntese de carboidra- 
tos não segue uma referência direta, mas um 
processo complexo e menos específico. 

Embora o genoma não codifique a sequência oli- 
gossacarídica, ele determina a expressão de diversas 
enzimas que sintetizam carboidratos, ligam-os a outras 
estruturas polissacarídicas ou ainda modificam os re- 
síduos monossacarídicos, adicionando ou removendo 
grupamentos substituintes nos anéis furanosídicos ou 
piranosídicos (Figura 5-2). Todo este processo é bas- 
tante específico, envolvendo tipos de monossacarídeos 
ou ainda posições específicas dentro destas moléculas. 
Uma das principais famílias de enzimas envolvidas nes- 
te processo são as denominadas glicosil transferases. 

Esta família de biomoléculas apresenta 
uma grande variedade de formas (e, por con- 
seguinte, funções), desde suas formas mo- 
noméricas até grandes polímeros com 
centenas de unidades monossacarídicas. São 
encontrados ligados a proteínas, formando as 
chamadas glicoproteínas; sulfatados, dando 
origem aos glicosaminoglicanos; ligados a li- 
pídeos em membranas celulares (os glicolipí- 
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Representação de Haworth 
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Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacarídeos compostos 
por anéis de 5 (furanoses) e 6 membros (piranoses). São apresentados 3 tipos de visualização 
para estas moléculas, duas 2D e uma 3 D. 


deos) e como exopolissacarídeos da parede 
celular de fungos, dentro outros. 

A forma majoritária de monossacaríde- 
os biológicos em solução é um ciclo, mais co- 
mumente composto por 5 ou 6 átomos. Os 
carboidratos com anéis de 5 membros são 
denominados furanoses (como a ribose e a 
desoxirribose), por semelhança ao composto 
furano, enquanto os carboidratos com anéis 
de 6 membros são denominados piranoses 
(como a glicose, a manose e a galactose), pe- 
la sua similaridade com o composto pirano 
(Figura 5-2). 

Estes anéis apresentam características conforma- 
cionais importantes. No caso das furanoses, podem ser 
as formas em envelope e torcida. No caso das pirano- 
ses, podem ser as formas em cadeira e bote torcido 
(Figura 6-2). Cada uma destas formas pode apresentar 
ainda variações, específicas para cada carboidrato em 
solução. Esta transição entre diversos estados confor- 
macionais de monossacarídeos á denominada de equi- 
líbrio pseudo-rotacional. 

Os carboidratos possuem algumas di- 
ferenças importantes em relação aos amino- 
ácidos. São, em geral, compostos mais 
polares, o que indica que irão interagir forte- 
mente com a água. Outra diferença impor- 
tante se refere à sua diversidade. Em 
comparação aos 20 aminoácidos codificados 
no genoma, mais de 100 possíveis unidades 


monossacarídicas já foram observadas como 
presentes em biomoléculas (Figura 7-2). 

Em analogia à ligação peptídica, carboi- 
dratos são ligados entre si (ou a outras mo- 
léculas) através da denominada ligação 
glicosídica. Contudo, aminoácidos possuem 
somente um grupo amino e um grupo ácido 
carboxílico em seu esqueleto peptídico, de 
forma que somente um tipo de ligação peptí- 
dica é possível entre dois resíduos (o mesmo 
se dá com nucleotídeos). Como a ligação gli- 
cosídica entre dois monossacarídeos é for- 
mada pela reação entre dois grupos 
hidroximetileno (CHOH), e cada monossacarí- 
deo possui vários destes grupos, múltiplas li- 
gações entre dois monossacarídeos 
consecutivos tornam-se possíveis. Cria-se, 
assim, um complexo espectro de possíveis li- 
gações entre os mesmos dois monossacarí- 
deos. 

0 átomo de carbono na posição 1 (Cl) de um mo- 
nossacarídeo apresenta propriedades específicas, sen- 

4 Ci 2 S 0 


Figura 6-2: Equilíbrio conformacional entre a 
forma de cadeira e bote torcido para o resí- 
duo de ácido idurônico, componente da hepa- 
rina. 


HGOC. n 

A 
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u-D-glicose 


u-D-manose 


«-D-fucose 



a-D-bacilosamina 6-( -sulfo-a-D-fucose 2NAc-2.4-dideoxl-hex-5-ulose 

Figura 7-2: Exemplo da complexidade de possíveis monossacarídeos encontrados na natureza. 


do denominado carbono anomárico. Para um mesmo 
monossacarídeo, o carbono anomérico pode ser en- 
contrado em duas possíveis configurações, a e (3 (Figu- 
ra 5-2). Assim, uma ligação glicosídica entre o carbono 
anomérico (Cl) de uma manose e o átomo C3 de outra 
manose poderia ocorrer de duas formas, a-Man-(1— >3)- 
Man ou (3-Man-(1— >-3)-Man. No caso de glicoproteínas, 
contudo, a forma a é aquela usualmente encontrada 
para o resíduo de manose (para outros resíduos, a for- 
ma anomérica preferencial pode ser diferente). 

Tomando como exemplo o tetrassacarídeo a-Man- 
(1— >2)-a-Man-(1— >-2)-a-Man-(1— >3)-Man, comumente 

encontrado em glicoproteínas do tipo oligomanose, o 
primeiro resíduo de manose (denominada extremidade 
não-redutora) possui seu carbono anomérico ocupado 
na ligação glicosídica, tendo sua configuração (neste 
exemplo a) fixa. Em contrapartida, o quarto resíduo de 
manose possui seu carbono anomérico livre. Esta por- 
ção é denominada redutora, e tem a configuração do 
carbono anomérico variável, isto é, pode estar tanto na 
forma a quanto p. 

Membranas 

Diferentemente dos ácidos nucleicos, 
proteínas e carboidratos, membranas não se 


constituem em polímeros biológicos, mas em 
agregados moleculares de lipídeos anfipáticos 
organizando uma bicamada (Figura 8-2). 
Apresentam papel fundamental à vida, com- 
partimentalizando a célula, definindo seus li- 
mites, propriedades e organizando estruturas 
celulares. 

É importante ter em mente que mem- 
branas são muito mais do que simples "pare- 
des" delimitadoras da célula. Os 
componentes de membranas são variados, 
incluídos diferentes tipos de lipídeos, proteí- 
nas e carboidratos. A presença e localização 
destes componentes pode ser modulada de 
forma dinâmica em função de necessidades 
da célula, tecido ou organismo, sinalizando e 
modulando cadeias de eventos e definindo 
regiões da célula com propriedades específi- 
cas (a chamada polaridade celular). 

Moléculas anfipáticas apresentam como 
característica a presença simultânea de uma 
região polar, também chamada de cabeça po- 
lar (hidrofílica ou lipofóbica) e de uma região 
apoiar, também chamada de cauda hidrofóbi- 
ca (hidrofóbica ou lipofílica). Assim, membra- 
nas celulares possuem superfícies polares e 
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Figura 8-2: Representação de uma membrana 
POPE (palmitoil oleil fosfatidil etanolamina) 
contendo a enzima PglB (oligossacaril 
transferase) de Campybbacter iorí. Os 
átomos de oxigênio estão representados em 
vermelho, os átomos de carbono em verde, 
os átomos de hidrogênio em branco e 
nitrogénios em azul. A enzima está 
representada como cartoon verde. 

interiores apoiares. As características destas 
duas regiões, contudo, podem variar bastante 
em função da composição dos lipídeos, inter- 
ferindo na carga, espessura e fluidez da 
membrana (e, por conseguinte, na sua capa- 
cidade de modular fenômenos biológicos). 

"Micromoléculas" biológicas 

Quando pensamos nos efetores da in- 
formação genética é natural que a primeira 
família de biomoláculas que venha a nossa 
mente seja a das proteínas, codificadas dire- 
tamente no genoma. Contudo, como vimos 
anteriormente, outros tipos de biomoláculas 
são fundamentais ao funcionamento dos or- 
ganismos, mesmo que estas não estejam co- 
dificadas diretamente no DNA. 

Da mesma forma como não há um con- 
junto de bases nitrogenadas que codifique 
monossacarídeos ou lipídeos, diversos com- 
postos de baixa massa molecular (por isso 
muitas vezes chamados de micromoléculas, 
em oposição às macromoléculas, compostos 
de elevada massa molecular) não possuem 
codificação direta no genoma, mas são pro- 
duzidos a partir de enzimas que, estas sim, 
têm suas sequências de aminoácidos defini- 
das pela molécula de DNA. Neurotransmisso- 


res, hormônios, metabólitos primários e se- 
cundários em plantas e uma infinidade de 
compostos, em decorrência de sua importân- 
cia biológica (e terapêutica), são potenciais 
alvos de estudos computacionais. Contudo, 
justamente em decorrência de sua grande 
variedade química, torna-se difícil estabelecer 
padrões ou referências estruturais, como é o 
caso das biomacromoléculas vistas anterior- 
mente. Frequentemente, esta característica 
cria uma série de dificuldades e desafios no 
emprego de ferramentas computacionais no 
estudo de micromoléculas. Dentre estas difi- 
culdades destaca-se a necessidade de desen- 
volvimento de parâmetros específicos para 
cada molécula (como veremos no capítulo 8). 

2.3. Níveis de organização 

A classificação da estrutura de bioma- 
cromoléculas envolve, didaticamente, quatro 
diferentes níveis de complexidade. Esta sepa- 
ração facilita o nosso entendimento do como 
e do porquê macromoléculas adotarem de- 
terminadas formas em meio biológico e, a 
partir destas, desempenharem funções espe- 
cíficas. Adicionalmente, cada nível traz volu- 
me e tipos de informação diferentes, exigindo 
poder computacional e abordagens distintas, 
como veremos adiante. 

Em princípio, estes níveis apresentam 
um componente hierárquico, ou seja, a infor- 
mação de um nível é importante ou necessá- 
ria para o nível de complexidade seguinte. 
Contudo, outros fatores podem participar 
neste processo. 

Por exemplo, no caso das proteínas, embora nor- 
malmente consideremos que a informação contida na 
estrutura 1 ária (isto á, a sua sequência de aminoácidos) 
seja determinante para a sua estrutura 2 árla , ela não é o 
único determinante. Concessões podem ser realizadas 
para permitir uma estrutra 3 aria ou mesmo 4 aria mais 
estável. 

Assim, uma determinada região em hélice pode ser 
parcialmente desestruturada para facilitar a formação 
de um determinado domínio (ver adiante). Este tipo de 
consideração é importante na validação de modelos 
teóricos para a estrutura de proteínas, como veremos 
no capítulo 7. 
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Adicionalmente, fatores externos à própria sequên- 
cia proteica podem interferir nestes níveis de organiza- 
ção. Um dos fatores mais comuns é a glicosilação de 
proteínas, que frequentemente estabiliza partes da 
mesma e, assim como as chaperonas, pode interferir 
na forma proteica tridimensional existente em meio bi- 
ológico. 

Estrutura l ária 

0 nível inicial de complexidade, a estru- 
tura 1 ária , consiste num padrão de letras (ou 
pequenos conjuntos de letras) que representa 
a composição do biopolímero. Esta sequência 
de letras representa uma informação de na- 
tureza unidimensional (1D), em que a única di- 
mensão descrita é a ordem de aparecimento 
dos monômeros. 

Para ácidos nucleicos, a estrutura 1 ária 
consiste numa sequência de nucleotídeos, en- 
quanto para proteínas em uma sequência de 
aminoácidos e, para carboidratos, em uma 
sequência de monossacarídeos (Figura 9-2). 
Este último caso é o único para o qual não há 
uma descrição de uma única letra para cada 
monômero, principalmente em face do eleva- 
do número de possíveis monômeros encon- 
trados na natureza, maior que o número de 
letras no alfabeto. 

Embora de menor complexidade, a es- 
trutura 1 aria nos oferece um grande volume de 
informações sobre a forma nativa da biomo- 
lácula e, por conseguinte, sobre suas funções. 
Tais informações advém principalmente da 
comparação de sequências de biomoléculas 
(aminoácidos ou nucleotídeos) em busca de 
padrões específicos associados a determina- 
das características ou funções. Uma vez 
identificados, esses padrões ou assinaturas 
podem ser usados na busca das mesmas ca- 
racterísticas em outras proteínas, desconhe- 
cidas. Estas comparações ainda nos permitem 
estudar a evolução destas biomoléculas e de 
seus organismos, contribuindo no entendi- 
mento de como a vida se desenvolveu e atin- 
giu o seu estágio atual de complexidade (ver 
capítulo 5). 


DNA: 

GGT AT AGGCGCTGTTCTT A AGGTGCT A AC A ACGGGGT 
T ACCCGCGTTG ATCTCGTGG AT A A AACGC A AACGCCA 
ACAG 

RNA: 

GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG 

GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC 

GCCAACAG 

Aminoácidos: 

GIGAVLKVLTTGLPALISWIKRKRQQ 
Sequência sacarídica: 

a-D-GlcNAc,6S-(1—>3)-p-D-GlcA-(1—>4)-a-D- 
GlcNS,3S,6S-(1— >4)-a-L-ldoA,2S-(1— >4)-a-D- 
GlcNS,6S 

Figura 9-2: Representação da estrutura 1 aria 
de diferentes biomacromoléculas: DNA, RNA, 
proteína (estas três representando o peptídeo 
melitina, componente do veneno da abelha 
Apis mellifera) e carboidratos (representando 
uma sequência repetitiva de heparina). A letra 
5 na sequência oligossacarídica indica 
sulfatação. 

Estrutura 2 ária 

A partir da sequência de monômeros 
descritos, em uma determinada ordem espe- 
cífica, na estutura 1 aria surgem interações en- 
tre monômeros vizinhos e com as moléculas 
de solvente circundantes. Por exemplo, en- 
quanto dois nucleotídeos vizinhos tendem a 
"empilhar" os anéis das bases, uma cadeia la- 
teral de um aminoácido polar vai se expor à 
água, maximizando interações por ligação de 
hidrogênio com este solvente. De forma se- 
melhante, uma cadeia apoiar irá se expor aos 
lipídeos em uma membrana, maximizando in- 
terações hidrofóbicas com este outro solven- 
te. 

Estas interações entre monômeros 
acabam por dar origem a padrões repetitivos 
de organização espacial, denominados de es- 
trutura 2 ária (Figura 10-2). Estes padrões ou 
elementos aparecem em número relativa- 
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mente pequeno de tipos, de forma que a es- 
trutura tridimensional de biomoláculas pode 
ser descrita como uma combinação de con- 
juntos destes elementos. 

Diferentes composições de estrutura 
1 ária podem gerar um mesmo tipo de estrutura 
2 ária . Não por acaso, as propriedades destas 
estruturas 2 árias , mesmo que formadas por 
sequências diferentes, apresentam seme- 
lhanças. Por exemplo, uma alça em proteínas 
é frequentemente uma estrutura 2 ária bastan- 
te flexível, enquanto folhas e hélices tendem 
a ser mais rígidas. 

As estuturas 2 árias mais frequentemente 
lembradas são aquelas relacionadas a proteí- 
nas. Incluem três grupos de elementos prin- 
cipais: as alças, as hélices e as folhas p. 

As alças ou voltas são elementos en- 
volvidos na conexão entre hélices e folhas. 
Tendem a ser, portanto, estruturas flexíveis 
para acomodar as mais variadas orientações 
que estas hélices e fitas podem adotar entre 
si. Embora alças pequenas possam ser bas- 
tante rígidas, suas flexibilidades tendem a au- 
mentar conforme o tamanho da alça aumenta 
(Tabela 1-2). Justamente em função desta 
elevada flexibilidade, alças são mais susceptí- 
veis evolutivamente a sofrerem mutações 
(salvo se estiverem sob alguma pressão evo- 
lutiva, determinada por alguma função espe- 
cífica). Em outras palavras, a troca de um 
resíduo por outro de propriedades distintas 
pode ser mais facilmente acomodada nesta 
estrutra flexível do que nos outros tipos de 
estrutura 2 ária , mais rígidos. 

Enquanto hélices e folhas apresentam periodicidade 
ao longo de suas estruturas (semelhança nos pares de 
ângulos (p e \|/ a cada aminoácido, ver adiante), alças se 
distinguem por não apresentarem periodicidade. Ainda, 
embora alças sejam frequentemente consideradas co- 
mo elementos sem estrutura definida (as chamadas 
random coils), ou mesmo com estrutura aleatória, isto 
não á sempre verdade. Alças podem adotar formas 
mais definidas, dependendo de seu tamanho e compo- 
sição. 

De forma semelhante, é equivocado subestimar a 
importância das alças, considerando somente seu pa- 
pel como elemento de conexão. Alças apresentam di- 
versos impactos funcionais importantes em proteínas. 


Tabela 1-2: Tipos de alças mais comuns 

encontrados em proteínas. 


Tipo Tamanho 

(n° de resíduos) 


voltas y 3 

voltas p 4 

voltas a 5 

voltas n 6 

alças Q 6-16 a 

alças Ç 6-16 a 

a A despeito de tamanhos semelhantes, as formas 
destas alças se aproximam das letras que as 
denominam. Na volta £2 os resíduos das extremidades 
da alça estão próximos, e na volta Ç observa-se uma 
distorção na geometria. 

Por exemplo, sua flexibilidade permite que atuem como 
tampas ou abas, cobrindo sítios ativos e regulando o 
acesso de moduladores ou substratos. De forma ainda 
mais direta, alças são frequentemente os elementos de 
estrutura 2 árla mais expostos ao solvente. Assim, mui- 
tas vezes envolvem-se em contatos proteína-proteína 
(ou com outras biomoláculas), os quais podem ser de- 
terminantes para a função proteica. Assim, embora 
mais susceptíveis evolutivamente a mutações, não são 
incomuns alças com resíduos conservados, fundamen- 
tais para suas respectivas funções biológicas. 

A hélice a e as folhas p foram inicial- 
mente descritos por Linus Pauling e Robert B. 
Corey em 1951, embora as primeiras propos- 
tas para as estruturas em folhas datem de 
décadas mais cedo, em 1933, por Astbury e 
Bell. As folhas p são formadas por sequênci- 
as de aminoácidos (cada sequência é denomi- 
nada de fita) quase completamente 
extendidas. Estas fitas, quase lineares, inte- 
ragem lado a lado ao longo de seus eixos lon- 
gitudinais, através de uma série de ligações de 
hidrogênio entre o grupamento N-H de uma 
fita e o grupamento C=0 da fita vizinha (Figura 
10-2). Para que esta organização seja possí- 
vel, os átomos de Ca adotam orientação in- 
tercalada, acima e abaixo do plano da folha. 
Esta organização se assemelha a uma série 
de dobraduras em uma folha de papel, de 
forma que este tipo de estrutura 2 ária é tam- 
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bém denominado de folhas p pregueadas (Fi- 
gura 10-2). 

A forma pregueada de folhas p também á acompa- 
nhada pelas cadeias laterais dos resíduos de aminoáci- 
dos, ora acima do plano da folha, ora abaixo. Contudo, 
resíduos em fitas vizinhas orientam suas cadeias late- 
rais para o mesmo lado, frequentemente de forma jus- 
taposta (Figura 10-2). Isto permite, por exemplo, que 
uma face da folha seja hidrofóbica e a outra hidrofílica. 

A organização das fitas em folhas pode 
seguir duas orientações possíveis: í) a porção 
N-terminal de uma fita interagindo com a 
porção N-terminal da fita vizinha (e, conse- 
quentemente, o C-terminal interagindo com o 
C-terminal), ou ii) a porção N-terminal de uma 
fita interagindo com a porção C-terminal da 
fita vizinha. Estas duas possibilidades de inte- 
rações de fitas dão origem a dois tipos de fo- 
lhas p: as paralelas e as antiparalelas. 

As folhas p paralelas e antiparalelas di- 
ferem em outras características. Esta organi- 
zação diferenciada das fitas acarreta, por 
exemplo, em um padrão distinto de ligações 
de hidrogênio. Enquanto nas folhas antipara- 
lelas as ligações de hidrogênio formam um 
ângulo de 90° com as fitas, nas folhas para- 
lelas estes ângulos se tornam maiores (e as 
interações mais fracas) (Figura 10-2). 

As folhas p podem ser encontradas em formas pu- 
ras, paralelas ou antiparalelas, ou mistas, em que fo- 
lhas paralelas pareiam com folhas antiparalelas. 
Contudo, folhas p paralelas tendem a ser menos está- 
veis conformacionalmente que folhas p antiparalelas. 
Esta diferença pode ser bastante significativa, suficien- 
te para acarretar na desnaturação de proteínas por 
seus inibidores, como foi proposto na ação de serpinas 
sob suas próteses alvo. 

0 trabalho pioneiro de Pauling e Corey 
no início dos anos 50 do século XX identificou 
não somente as folhas, mas também hélices 
em sequências polipeptídicas. A formação da 
hélice, de forma similar às folhas, também 
envolve a realização de ligações de hidrogênio 
entre grupos N-H e C=0 vizinhos no espaço 
(mas não na sequência) (Figura 10-2). Contu- 
do, enquanto nas folhas p estas interações se 
dão com resíduos em fitas vizinhas, nas héli- 
ces estas interações acontecem com resíduos 
mais próximos na sequência, entre as voltas 


da hélice. 

Diversos tipos de hélices podem ser en- 
contrados em proteínas (Tabela 2-2). A hélice 
mais comum, denominada de hélice a, apre- 
senta 3,6 resíduos de aminoácidos por volta 
da hélice, e cada aminoácido ( n ) realiza ligação 
de hidrogênio com o quarto resíduo seguinte 
[n + 4), que perfaz (aproximadamente) uma 
volta completa da hélice. Outro tipo de hélice 
comum em alguns tipos de proteína é a hélice 
de poli-prolina II encontrada, por exemplo, em 
proteínas de parede celular de plantas e no 
colágeno. Neste tipo de hélice, contudo, como 
o átomo de nitrogênio da prolina está ligado a 
três átomos de carbono, não há formação de 
ligação de hidrogênio durante a organização 
da hélice. 

Existem, ainda, outros tipos de hélice, menos co- 
muns, como a hélice n e a hélice 3 10 (Tabela 2-2). Quan- 
to à nomenclatura, a hélice 3 10 foge ao padrão de uso 
de letras gregas das hélices a e n. 0 número 3 repre- 
senta o número de resíduos por volta da hélice, en- 
quanto o número 10 reflete o número de átomos entre 
duas ligações de hidrogênio vizinhas dentro da hélice. 
Assim, segundo esta nomenclatura, a hélice a seria 
chamada de 3,6 13 e a hélice n de 4,4 1S . Tais nomencla- 
turas, contudo, não são normalmente empregadas. 

Não são só as proteínas que que apre- 
sentam estruturas 2 árias . Ácidos nucleicos e 
carboidratos também podem apresentar pa- 
drões repetitivos de organização espacial, 
definidos pela sequência de monômeros que 
os constituem. 

A molécula de DNA pode adotar três ti- 
pos de estrutura 2 ária , denominados A, B e Z 
(Figura 11-2), embora a forma B seja a estru- 
tura mais comum e a partir dela sejam defini- 
das as fendas maior e menor do DNA (Tabela 
3-2). A transição entre estas formas é deter- 
minada pela hidratação, tipos de cátions e da 
própria sequência de nucleotídeos. Contudo, a 
dificuldade em mimetizar as interações bioló- 
gicas, envolvidas no DNA e em complexos 
DNA-proteínas, durante a determinação de 
estruturas 3 D dificulta associações mais cla- 
ras de cada tipo de estrutura 2 ária a fenôme- 
nos específicos in vivo. 

Diferentes tipos de estrutura 2 ária acar- 
retam em diferentes propriedades estruturais 
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Figura 1Ü-2: Representação dos tipos mais comuns de estrutura 2 ária encontrados em proteínas. 
Em verde estão as hélices a (A), em azul as hélices 3 10 (B), em salmão as hélices n (C), em ciano 
as folhas p paralelas (D) e roxo as antiparalelas (E). As ligações de hidrogênio entre átomos do 
esqueleto peptídico estão apresentadas como linhas tracejadas em marrom. As estruturas são 
partes que compõe as proteínas descritas pelos códigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e 
para cada uma duas diferentes orientações são apresentadas. Note que as cadeias laterais 
apontam para fora do eixo das hélices e, para as folhas, para cima e para baixo do plano 
definido pelas fitas. 


na molécula de DNA, como na largura e pro- 
fundidade das fendas maior e menor e na dis- 
posição e orientação dos grupos fosfato, 
propriedades estas que, por sua vez, estão 


diretamente relacionadas à especificidade da 
interação do DNA com proteínas e fármacos. 

A forma B do DNA pode assumir dois sub-estados, 
denominados BI e Bll, definidos por diferenças em tor- 
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Tabela 2-2: Tipos de hélices encontrados em proteínas. 


Tipo de hélice Resíduos / Ligação de Elevação / Elevação / Direção mais 
volta hidrogênio resíduo (Ã) volta (Â) comum 


hélice a 3,6 n + 4 1,5 5,4 direita 


hélice 3 10 3 n + 3 

hélice 7i 4,4 n + 5 

poli-Pro I 3,3 

poli-Pro II 3 


ções na parte sacarídica e no grupo fosfato (ver adian- 
te). Essa região, formada por carboidrato e fosfato, é 
também denominada de esqueleto do DNA, em analo- 
gia ao esqueleto peptídico. A lógica á a mesma: o es- 
queleto é composto pela região comum a todos os 
monômeros formadores do biopolímero. Adicional- 
mente, outras formas de DNA já foram identificadas 
(alguns autores afirmam inclusive que poucas letras 
do alfabeto sobram para nomear novas formas de 
DNA que por ventura venham a ser identificadas), em- 
bora muitas ainda não tenham papel biológico claro. 

A maioria dos genomas eucarióticos está sujeita a 
um fenômeno de metilação do DNA, que consiste na 
adição de um grupo metila no átomo de carbono na 
posição 5 dos resíduos de citosina. Como uma modifi- 
cação estrutural epigenática envolvida na regulação do 
potencial regulatório e transcricional do DNA, deve-se 
estar atento à necessidade de incluir tal modificação na 
descrição deste ácido nucleico. 

Não somente o DNA, mas também o 
RNA possui estrutura 2 ária . Contudo, ao con- 
trário do DNA, que é uma molécula contendo 
duas fitas de ácidos nucleicos, na maioria das 
situações o RNA é uma molécula composta 
por uma única fita. Assim, enquanto no DNA 
os pareamentos entre bases que dão origem 
à estrutura 2 ária surgem da interação de mo- 
léculas (fitas) diferentes e complementares, 
no RNA a estutura 2 ária surge de interações 
na própria fita, que dobra-se sobre si mesma. 

As estruturas 2 árias de RNA incluem re- 
giões de bases pareadas, alças de grampos, 
alças internas, bojos (do inglês bulge) e jun- 
ções. Quando o RNA se dobra sobre si, ele 
forma pareamentos entre bases complemen- 
tares de forma análoga àquelas vistas no 
DNA. Quando uma das fitas no RNA pareado 
apresenta bases que não possuem uma con- 
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trapartida para formar um par A-U ou C-G, 
forma-se uma protuberância ou bojo. 

Estes bojos, isto é, bases não pareadas em uma du- 
pla-fita, também podem ser encontradas em folhas (3. 
Neste caso, resíduos de aminoácidos de uma fita dei- 
xam de interagir com a fita vizinha, dando origem a es- 
te outro tipo de estrutura 2 árla de proteínas. 

As alças de grampos em moléculas de 
RNA são análogas às voltas observadas em 
proteínas, conectando duas fitas (3 por um 
pequeno segmento de poucos resíduos. No 
RNA, quando a fita dobra-se sobre si mesma, 
deixa alguns resíduos (no mínimo 4) projeta- 
dos para fora, formando uma alça. Neste tipo 
de estrutura 2 aria , a alça está vizinha a so- 
mente uma região de pareamento de bases, 
enquanto que há duas regiões, a cada lado do 
bojo, de bases pareadas. 

As alças internas podem ser entendidas 
como uma dupla fita de DNA em que, no seu 
meio, as bases não são complementares e, 
por isso, não pareiam. Assim, ambas as fitas 
apresentam bases que não estão pareadas, o 
que a diferencia do bojo. Por fim, as junções 
conectam 3 ou mais regiões de bases parea- 
das. 

0 terceiro tipo de biopolímero constitu- 
inte de biomacromoléculas, os carboidratos 
podem, similarmente a proteínas e ácidos 
nucleicos, adotar padrões repetitivos de or- 
ganização de suas unidades formadoras, mo- 
nossacarídeos, isto é, em elementos de 
estrutura 2 ária . 

Polissacarídeos lineares desenvolvem 
estruturas de hélices, similarmente à proteí- 
nas e ácidos nucleicos. No caso destas molé- 
culas, contudo, a variabilidade de 
organizações possíveis é muito maior, de for- 
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A) DNA-B 


B) DNA-A 


C) DNA-Z 








Figura 11-2: Representação dos tipos mais comuns de estrutura 2 ária encontrados no DNA, ilus- 
tradas para sequências de 12 nucleotídeos. Em vermelho estão as hélices B (A), em azul as 
hélices A (B) e em magenta as hélices Z (C). As estruturas pelos códigos PDB 3BSE, 3V9D e 
279D. Para cada uma duas diferentes orientações são apresentadas, e o esqueleto das 
moléculas de DNA está representado como fitas. 


ma que não há definição específica para um 
ou alguns tipos de hélices, como vimos ante- 
riormente. Ao invés disto, cada tipo de polis- 
sacarídeo apresentará um número de 
resíduos por volta, elevação por resíduo e 
elevação por volta, assim como seu sentido 
para a direita ou para a esquerda (vide tabela 
2-3). 

Estas características, contudo, são normalmente 
determinadas experimentalmente através de difração 
de raios-X, na qual a amostra está na fase cristalina. 
Esta é uma condição adequada à descrição, por exem- 
plo, da quitina, polissacarídeo encontrado na natureza 
em condições semelhantes. Contudo, quando estes po- 
lissacarídeos são transpostos para soluções biológicas, 
estas moléculas adotam uma elevada flexibilidade e, 
por conseguinte, grande variação conformacional. Não 
raramente, perdemos a capacidade de identificar for- 


mas repetitivas, e a denominação de alças desordena- 
das pode também ser aplicada a polissacarídeos. 

Adicionalmente, carboidratos não se apresentam 
somente como polissacarídeos lineares, mas como oli- 
go- ou polissacarídeos ramificados. Esta ramificação 
agrega um grau adicional de complexidade na descri- 
ção da forma destes compostos. Mesmo assim, ainda é 
possível descrever a forma destes compostos, caso a 
caso, como veremos adiante. 


Estruturo 3 ária 

A importância do conhecimento da es- 
trutura 2 ária de biomoláculas reside, principal- 
mente, no fato de que estes elementos se 
organizam no espaço tridimensional, dando 
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Tabela 2-3: Tipos de hélices encontrados em ácidos nucleicos. 


Tipo de 
hélice 

pb / 
volta 

Elevação / 
pb (A) 

Elevação / 
volta (Â) 

Fenda maior (Ã) 
Largura Profundidade 

Fenda menor (Ã) 
Largura Profundidade 

Direção 

DNA A 

11 

2,9 

32 

2,7 

13,5 

11,0 

2,8 

direita 

DNAB 

10 

3,4 

34 

11,7 

8,5 

5,7 

7,5 

direita 

DNA Z 

12 

3,8 

45 

- 

convexa 

4 

9 

esquerda 


origem ao que chamamos de estrutura 3 ária . 
Em outras palavras, a estrutura 3 ária de uma 
dada biomolécula corresponde à montagem 
dos seus elementos de estrutura 2 aria . Por 
outro lado, é a estrutura 3 ária (ou a 4 aria , que 
veremos a seguir) que irá exercer a função 
biológica da molécula em questão. 

Os diversos elementos de estrutura 2 ária 
de uma dada molécula se organizam em uma 
estrutura 3 ária através de um fenômeno de- 
nominado enovelamento (também chamado 
em português de dobramento, do termo em 
inglês fotding). Neste processo, uma combi- 
nação de forças converge para que a biomo- 
lécula adote uma conformação mais estável 
no meio biológico alvo. 

0 termo conformação é usado para descrever a 
forma de uma dada molécula, como já empregado 
neste capítulo. Contudo, deve-se adotar uma distinção 
entre conformação e estrutura, importante para o en- 
tendimento de propriedades moleculares. Estrutura se 
refere a uma única forma, bem definida e conhecida. 
Conformação se refere a uma forma dentre múltiplas 
possíveis, em um determinado meio ou ambiente mo- 
lecular. Assim, é comum nos referirmos a estrutura 
cristalina de uma dada proteína, pois no cristal temos 
uma única forma 3D, como uma foto única que compõe 
um filme. Em solução, contudo, há diversas formas si- 
multaneamente co-existindo. Neste caso, cada forma 
pode ser denominada de conformação. Podemos, de 
forma mais precisa, dizer que a forma de uma biomo- 
lécula, determinada por cristalografia de raios-X, é 
uma conformação cristalográfica. 

0 processo de enovelamento é mais es- 
tudado para proteínas, biopolímeros que 
apresentam uma versatilidade de estrutura 
3 ária que nenhuma outra biomolécula possui. 
Isso faz todo o sentido, tendo em vista que 
são as proteínas os principais efetores da in- 
formação gênica. Em proteínas, o enovela- 
mento envolve a aproximação mútua de 
resíduos hidrofóbicos, que buscam se escon- 


der da água (também chamado de colapso 
hidrofóbico), ocasionando a expulsão deste 
solvente da região central da proteína. 

Simultaneamente, os resíduos polares 
são expostos ao solvente, e interações inter- 
resíduo são estabelecidas. Assim, a estrutura 
enovelada, nativa, terá uma quantidade míni- 
ma de moléculas de água em seu interior e 
um número máximo de contatos inter-resíduo 
(Figura 12-2). 

A ideia de ambiente molecular para o enovelamento 
ou para que uma dada biomolécula exerça sua função é 
mais complexa do que parece à primeira vista. Embora 
a ideia usual seja de que o meio aquoso seja predomi- 
nante, diversos tipos de ambientes aquosos podem ser 
encontrados dentro de um organismo, tecido ou célula. 
Por exemplo, o pH pode apresentar grandes variações 
entre vacúolos lisossomais, citoplasma, plasma, se- 
creção gástrica ou duodenal. Por outro lado, a força 
iônica da solução pode mudar drasticamente na proxi- 
midade de membranas com diferentes cargas. 

Outro tipo de ambiente molecular que deve ser 
destacado é definido pelas membranas biológicas. 
Membranas são fluidos, e moléculas inseridas em 
membranas estão solvatados pelas moléculas de fos- 
folipídeos. Assim, sendo o interior de membranas apo- 
iar (ou seja, lipofílico), o colapso hidrofóbico pode 
acontecer ao inverso, com a exposição de resíduos 
apoiares para o solvente (neste caso, a membrana). 
Ambientes mais específicos para o enovelamento de 
proteínas podem ainda ser criados por outras proteí- 
nas, denominadas chaperonas. Como um barril, chape- 
ronas podem isolar uma proteína do meio aquoso, 
levando a formação de interações inter-resíduo que 
não seriam observáveis de forma significativa em sua 
ausência. Por conseguinte, podem contribuir direta- 
mente na formação de estruturas 3 árias . 

Além de interações não covalentes en- 
tre os resíduos de aminoácidos de uma dada 
proteína (ou as bases de um ácido nucleico e 
os monossacarídeos de um polissacarídeo) e 
destes com o solvente, o enovelamento de 
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proteínas também é influenciado por intera- 


Figura 12-2: Representação 2D do 

enovelamento de uma proteína hipotética, 
com o direcionamento de resíduos 
hidrofóbicos (círculos pretos) para o interior 
da proteína e dos resíduos hidrofílicos para 
sua superfície (círculos brancos). Reproduzida 
de Tomixdf, 2008 ( Creative Commons). 

ções covalentes, associadas a modificações 
co- ou pós-traducionais. 

Durante ou após a síntese proteica (tra- 
dução), podem ser formadas ligações dissul- 
feto entre grupamentos sulfidrila (SH) de 
resíduos de cisteína, cofatores como o gru- 
pamento heme podem ser adicionados ou 
mesmo processos reversíveis podem ocorrer, 
nos quais reações como N-acetilação ou fos- 
forilação podem ser observadas de forma 
transiente. Mas o tipo mais abundante de mo- 
dificação co- ou pós-traducional na natureza é 
a glicosilação de proteínas, ou seja, a adição 
de uma estrutura oligossacarídica a um de- 
terminado aminoácido. Assim, a adição destas 
ligações covalentes e grupamentos altera não 
somente a forma 3D da proteína, mas sua 
flexibilidade e múltiplas propriedades fisico- 
químicas, enzimáticas e, por fim, pode tam- 
bém exercer papel importante em suas fun- 
ções biológicas. 

A glicosilação de proteínas ocorre em mais de 70% 
das proteínas de eucariotos. Diversos aminoácidos po- 
dem estar envolvidos na ligação a carboidratos, mais 


comumente resíduos de asparagina ou serina, embora 
também possam participar resíduos de treonina, hidro- 
xiprolina, tirosina, arginina, triptofano e cisteína. De- 
pendendo do aminoácido, a parte sacarídica pode estar 
ligada a átomos de nitrogênio, oxigênio, carbono ou en- 
xofre, dando origem às glicosilações chamadas de N-, 
0-, P-, C- ou S-ligada5. 

Estruturo U ária 

A despeito da função de um gene ser 
exercida por uma proteína com estrutura 3D, 
envolvendo a transmissão de informação de 
uma estrutura 1 ária para uma estrutura 3 ária , 
ainda há um quarto e último nível de organi- 
zação de biomacromoléculas, denominado de 
estrutura 4 ária . Nem todas as biomoléculas, 
contudo, apresentam este grau de organiza- 
ção. 

A estrutura 4 aria é constituída por agre- 
gados macromoleculares, principalmente de 
proteínas. Estas biomoléculas podem adotar 
estados oligoméricos, sejam estes compostos 
por 2 (dímeros), 3 (trímeros), 4 (tetrâmeros), 
5 (pentâmeros), 6 (hexâmeros) ou mais su- 
bunidades necessárias à realização de deter- 
minada função em condições nativas. No caso 
de ácidos nucleicos, a estrutura 4 aria também 
pode ser observada, por exemplo, em com- 
plexos entre DNA e proteínas, como histonas. 

Não é porque uma proteína se mostra como um 
oligômero em ambiente cristalino que em solução a 
mesma organização, necessariamente, será observada. 
Mesmo in vivo, diferentes ambientes fisiológicos po- 
dem acarretar em mudanças no estado oligomérico de 
uma proteína. Por exemplo, um peptídeo que se mostra 
como monômero no plasma pode formar tetrâmeros 
quando inserido em membranas. 

Portanto, assim como no caso da estrutura 3 aria , a 
estrutura 4 ária frequentemente se constitui em uma 
complexa combinação de múltiplas possibilidades que 
podem ser modificadas ou reguladas em função de 
inúmeras variáveis químicas e biológicas. Reproduzir 
com precisão este comportamento dinâmico é um dos 
principais desafios para a bioinformática. 

2.4. Descritores de forma 

0 uso dos conceitos de níveis hierár- 
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quicos nos permite entender as organizações 
básicas da estrutura 3 D de macromoláculas. 
Estes níveis, contudo, nos oferecem defini- 
ções qualitativas, gerais, que não abordam 
nuances ou variações dentro dos níveis. Por 
exemplo, definir uma região da proteína como 
uma hélice a não nos informa se esta hélice 
apresenta ou não algum grau de deformação. 
Similarmente, podemos saber que uma de- 
terminada sequência de nucleotídeos de DNA 
assume uma hélice do tipo B, mas esta clas- 
sificação simplemsente não avalia a defor- 
mação provocada nesta hélice por um 
fármaco intercalador do DNA. 

Portanto, em acréscimo aos níveis hie- 
rárquicos de classificação da estrutura de 
macromoléculas, há a necessidade de intro- 
duzir medidas quantitativas da forma destes 
compostos. Podemos, assim, calcular preci- 
samente formas associadas a determinados 
eventos biológicos (como a regulação da ex- 
pressão de um gene) e, por conseguinte, in- 
terferir nestes processos de forma racional 
(como no desenho de novos fármacos capa- 
zes de inibirem a expressão deste gene). 

Considerando que proteínas, carboidra- 
tos e ácidos nucleicos são biopolímeros, suas 
formas tridimensionais são definidas, basica- 
mente, pelas conectividades entre seus mo- 
nômeros constituintes (isto é, aminoácidos, 
monossacarídeos e bases nitrogenadas, res- 
pectivamente). 

Esta forma de compreender a estrutura 
de biomacromoléculas foi proposta inicial- 
mente em 1963 por Gopalasamudram 
Narayan Ramachandran. Neste trabalho, G. N. 
Ramachandran descreve a forma de dois 
aminoácidos vizinhos como fruto dos ângulos 
de torção ao redor do Ca (Figura 13-2), deno- 
minados cp e \|/. Assim, em função das cadeias 
laterais de cada aminoácido, algumas combi- 
nações de ângulos cp e \|/ seriam favorecidas, 
enquanto outras proibidas. As combinações 
favorecidas correspondem às estruturas 2 árias 
de proteínas que nós conhecemos e ofere- 
cem, assim, uma medida quantitativa para 
definir hélices, fitas, alças e voltas. 0 gráfico 
que combina os valores de ângulos cp e \p para 
um determinado dipeptídeo ficou assim sendo 


conhecido como mapa de Ramachandran (Fi- 
gura 13-2). 

0 uso de ângulos de torção para descrever a estru- 
tura e a conformação molecular não se limita somente 
a proteínas, mas também pode ser aplicado a ácidos 
nucleicos e carboidratos. Em cada caso, o número de 
ângulos de torção é definido pelas características das 
ligações entre os monômeros, isto é, se é uma ligação 
peptídica, glicosídica ou fosfodiáster. 

Para a descrição da forma de uma ligação peptídica 
em uma proteína são empregados três ângulos: co, vp e 
cp. Os ângulos cp e cp são aqueles descritos no mapa de 
Ramachandran, localizando-se antes e depois do Ca 
(porções N- e C- terminais da ligação, respectivamen- 
te). 0 ângulo co, por sua vez, corresponde ao grupa- 
mento amida, ou seja, a ligação entre os grupamentos 
N-H e C=0 (Figura 14-2). 

A ligação glicosídica pode ser descrita por dois ou 
três ângulos torcionais. Em analogia à ligação peptídi- 
ca, podem ser empregados os ângulos cp e vp (porção 
não-redutora e porção redutora, respectivamente). A 
exceção é quando descrevem-se ligações envolvendo o 
átomo de carbono na posição 6 de piranoses (como 
glicose, manose, fucose e etc.) e na posição 5 de fura- 
noses (como na ribose e na desoxirribose). Nestes ca- 
sos, há a necessidade de se considerar um terceiro 
ângulo torsional, denominado cb. 

0 terceiro caso de biopolímeros usualmente des- 
critos por ângulos torcionais, os ácidos nucleicos, con- 
sistem em um caso à parte. Como podemos observar 
na Figura 14-2, o grupamento fosfato agrega grande 
flexibilidade à cadeia, exigindo assim sete ângulos tor- 
sionais para sua adequada caracterização, a saber: a, p, 
y (na região 5'), 8 (entre os átomos 3' e 4' da pentose), e 
e Ç (na porção 3'). Há, ainda, o ângulo %, formado entre 
o carbono T da pentose e a base nitrogenada. 

Ângulos torsionais não são, contudo, a 
única forma de descrever e avaliar a forma de 
biomacromoléculas. A despeito de serem bi- 
opolímeros, proteínas, carboidratos e ácidos 
nucleicos apresentam suas particularidades, 
exigindo assim descritores específicos, capa- 
zes de lidar com as propriedades fisico-quí- 
micas particulares de cada tipo de monômero 
(e, por conseguinte, em lidar com as diferen- 
tes propriedades biológicas resultantes). 

Como mencionado anteriormente, biomoléculas em 
condições biológicas apresentam não somente uma, 
mas múltiplas conformações que coexistem, simulta- 
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Glicina 
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Figura 13-2: Mapas de Ramachandran para casos gerais (resíduos que não sejam prolina ou 
glicina), para resíduos de glicina e para resíduos de prolina. Os pontos correspondem às 
distribuições de ângulos cp e \p de cerca de 100 mil resíduos componentes de 500 estruturas 
proteicas obtidas em alta resolução. As regiões onde se localizam as estruturas secundárias 
típicas estão destacadas nos mapas. (Figura baseada em LOVELL, Simon C. et ai Structure 
Validation by Ca Geometry: cp, \p and C|3 Deviation. Proteins, 50, 437-450, 2003; e Flollingsworth, 
Scott A. & Karplus, P. Andrew. A fresh iook at the Romochondron plot ond the occurrence of 
Standard structures in proteins. Biomot. Concepts, 1, 271-283, 2010], 


neamente. Assim, os valores de ângulos torsionais de- 
vem ser considerados como médias, referências geo- 
métricas em torno das quais o comportamento da 
molécula em questão irá variar em solução. 

Ácidos nucleicos 

Em acréscimo aos ângulos torcionais os 
ácidos nucleicos, ao formarem pares de ba- 
ses, definem quase duas dezenas de parâme- 
tros geométricos distintos, importantes para 
uma cartacterização precisa da estrutura 
destas biomoléculas (Figura 15-2). Isto ocorre 
em decorrência de movimentos de translação 
ou rotação que cada base ou par de bases 
pode sofrer dentro da região pareada. Assim, 
moléculas ou regiões de ácidos nucleicos não 


pareadas não são descritas por estes parâ- 
metros. 

Considerando um espaço cartesiano definido pelos 
eixos x, y e z, sendo z o eixo maior da região de parea- 
mento e bases (Figura 15-2), os parâmetros geométri- 
cos oriundos da translação de bases em uma dupla fita 
envolvem: i) o deslocamento do par de bases ao longo 
do eixo x ou do eixo y; ii ) o deslocamento de uma base 
em relação à outra, seja como uma distensão ao longo 
do eixo y (do inglês s tretch), seja como cisalhamento 
ao longo do eixo x (do inglês s hear), ou ainda um esca- 
lonamento acima ou abaixo do plano xy (do inglês 
s togger): iii) o deslocamento de um par de base em 
relação a outro par de base, seja como uma elevação 
ao longo do eixo z (do inglês r/se), seja como um desli- 
zamento ao longo do eixo_y (do inglês s í/de) ou ao longo 
do eixo x (chamada em inglês de s hift). 
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Figura 14-2: Ângulos torsionais para 

proteínas, carboidratos e ácidos nucleicos 
ilustrados para, respectivamente, um 
tripeptídeo, um trissacarídeo e um 
trinucleotídeo. 

Os parâmetros originados da rotação de bases ou 
pares de bases entre si produzem diferentes tipos de 
inclinação (definidas em inglês como t/p, indinotion, roil 
e t/lt), dependendo do vértice e do eixo ao longo dos 
quais ocorre o movimento do par de bases. Pares de 
bases podem ainda sofrer modificações caracterizan- 
do-os como: /) torcidos (chamadas em inglês de twist, 
propeLLer twist ou buckle), e ií) abertos (definida em in- 
glês como opening). 

Proteínas 

Considerando os 20 aminoácidos codifi- 
cados no genoma, poderíamos imaginar que 
teríamos 20" possíveis proteínas diferentes, 
sendo n o número de aminoácidos. A situação, 
felizmente, não é tão complexa por uma série 
de motivos. 

Um primeiro aspecto a ser observado é 
que, quando uma sequência de aminoácidos 
se enovela para adotar uma determinada es- 
trutura 3 ária , alguns aminoácidos se localizam 
em pontos chave para a estabilização da es- 
trutura 3D. Assim, sua modificação poderia 
desestabilizar total ou parcialmente a con- 
formação nativa da proteína. Como conse- 


quência, algumas posições na sequência de 
aminoácidos tornam-se conservadas evoluti- 
vamente como decorrência de determinantes 
estruturais. Ao mesmo tempo, podem haver 
determinantes funcionais para a conservação 
de posições na sequência ao longo da evolu- 
ção. 

Em contrapartida, como os aminoácidos 
podem ser agrupados de acordo com a se- 
melhança em suas propriedades fisico-quími- 
cas, diferentes combinações de resíduos 
podem levar a uma mesma estrutura 3D. De 
fato, sabe-se que a estrutura 3 ária de proteí- 
nas é mais conservada ao longo da evolução 
que a estrutura 1 aria . Em outras palavras, pro- 
teínas com identidade muito baixa entre suas 
sequências podem possuir estruturas 3 árias 
muito semelhantes. 

Conclui-se, assim, que sequências de 
aminoácidos podem arranjar-se em um con- 
junto de formas 3D mais ou menos definidos 
e finitos. Estas formas são denominadas mo- 
tivos (ou no inglês foíd), e possuem diversas 
classificações a partir de suas características 
(Figura 16-2). Dada a relação entre forma e 
função, o conhecimento do motivo de uma 
dada proteína (diretamente por métodos ex- 
perimentais como cristalografia de raios-X, 
ver capítulo 13, ou por inferência a partir de 
similaridade de sequência, ver capítulo 3) é 
um passo importante para a elucidação de 
seu mecanismo de ação em nível molecular. 

Por exemplo, um barril-p é um motivo 
que se assemelha a um barri, onde as tiras de 
madeira correspondem a fitas p (Figura 16-2). 
Define, assim, uma cavidade central que pode 
tanto servir como carreador de substâncias, 
como no caso das nitroforinas, ou como poro, 
como no caso das porinas. Embora o número 
de fitas p possa mudar (8 no caso das nitro- 
forinas e 16 no caso das porinas), a caracte- 
rística geral do motivo se mantém. Essas 
relações são ilustradas visualmente de forma 
muito elegante na "tabela periódica” de pro- 
teínas, desenvolvida pelos professores 
Richard Garratt e Christine Orengo. Para 
acessar as classificações dos diferentes mo- 
tivos já identificados, os bancos de dados 
CATH e SCOP são as fontes mais completas 
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Figura 15-2: Parâmetros geométricos empregados como descritores da geometria de ácidos 
nucleicos. 


de informações. 

Um outro conceito, que se confunde e 
em vários momentos é usado como sinônimo 
de motivo, é o de domínio proteico. Um domí- 
nio é uma parte da sequência polipeptídica de 
enovelamento independente (e, potencial- 
mente, de função também independente). As- 
sim, se um domínio for recortado de um gene 
e expresso separadamente ele deve, em prin- 
cípio, manter suas características estruturais. 

Um domínio proteico pode ser compos- 
to por mais de um motivo intrinsecamente 
associado. Por outro lado, um mesmo motivo 
pode ser encontrado e mais de um domínio de 
uma mesma proteína. 


Membranas 

Não temos falado muito de membranas 
até este momento por alguns motivos. Pri- 
meiramente, membranas não são biopolíme- 
ros, mas agregados de múltiplas moléculas, o 


que tira de cena a ideia de análise de uma 
molécula a partir de suas sub-unidades for- 
madoras. Segundo, estes agregados apre- 
sentam-se como um fluido, diferentemente 
das outras biomoléculas que vimos. Assim, 
não faz sentido analisar cada molécula de li- 
pídeo individualmente em uma membrana, 
mas o seu comportamento como um todo ou 
como uma média ao longo de múltiplos lipí- 
deos. 

Contudo, a despeito da natureza fluida 
de membranas e da sua capacidade de adotar 
múltiplas formas, os lipídeos (e também pro- 
teínas) não se distribuem homogeneamente 
ao longo das membranas, podendo formar 
regiões ou domínios enriquecidos em um de- 
terminado componente. Assim, para o estudo 
das propriedades de membranas biológicas 
torna-se necessário caracterizá-las estrutu- 
ralmente. Isto pode ser feito através de di- 
versas medidas, tais como a área por lipídeo, 
espessura da membrana e coeficientes de di- 
fusão lateral de lipídeos ou proteínas embe- 
bidas na membrana, dentre outros (Figura 
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8 - 2 ). 

A área por Lipídeo nos oferece informações acerca 
do grau de compactação das moLéculas que constitu- 
em uma membrana, ou seja, uma área menor indica 
uma membrana mais compacta. Isto, por sua vez, su- 
gere uma interação mais intensa entre os componentes 
da membrana. 

Embora proteínas inseridas em membranas adap- 


tem-se a este meio, são as membranas que fazem a 
maior parte do ajuste em sua estrutura para receber 
as proteínas (esse processo está relacionado às dife- 
renças de compressibilidade entre estas biomoLéculas). 
Como consequência, a inserção de proteínas em mem- 
branas biológicas promove uma perturbação na orga- 
nização da bicamada lipídica, podendo tanto aumentar 
quanto reduzir a espessura desta na região ao redor da 



D) barril p 


B) feixe a 7 





H) feixe a 12 


Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2 ária . São 
apresentados barris compostos por fitas-p, em A a proteína verde fluorescente (do inglês green 
fiuorescent protein, GFP, código PDB 1EMG), em D a porina 0MP32 (código PDB 2FGQ) e em G o 
transportador FECA (código PDB 1KM0); feixes de hélices a, em B a bacteriorodopsina (código 
PDB 1AP9), em E a proteína SERCA1 (código PDB 1WPG) e em H parte do sistema fotossintético 
de uma cianobactéria (código PDB 1JB0); e ferraduras compostas por hélices a, em C um inibidor 
de crescimento tumoral (código PDB 1BD8), em F uma repetição rica em resíduos de leucina, 
associada à fixação de nitrogênio (código PDB 1LRV) e em H a lipovitelina (código PDB 1L5H). 
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construída 
usando o programa Pymol, a partir de organização proposta em "The Protein Chart", de Richard 
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH. 






G) barril p 22 



34 


2. Níveis de Informação Biológica 



proteína. 

2.5. Formas de visualização 

O corolário uma imagem fala mais do 
que mil palavras também se aplica ao estudo 
de moléculas. E, de fato, o desafio de repre- 
sentar graficamente proteínas vem acompa- 
nhando os pesquisadores desde o início dos 
estudos da estrutura destas moléculas. Os 
primeiros relatos do uso de representações 
em cartoon para proteínas datam da década 
de 1960. Atualmente, múltiplas representa- 
ções estão à nossa disposição, com qualidade 
gráfica a cada momento superior, e gerados 
através de ferramentas gratuitas (Figura 17- 
2). 

Podemos definir hélices de proteínas 
por suas características geométricas, nomes 
ou pelos pares de ângulos cp e y. Mas visuali- 
zar uma hélice proteica, tridimensionalmente, 
não deixa dúvidas quanto ao seu significado. 
Portanto, o cuidado com a maneira pela qual 
iremos apresentar, visualmente, os aspectos 
estruturais que estudamos e tenhamos rela- 
cionados a alguma função biológica, é uma 
parte fundamental no trabalho do bioinfor- 
mata. 

Formas de visualização, contudo, são representa- 
ções muitas vezes incapazes de descreverem detalhes 
sobre a molécula em estudo. É difícil distinguir visual- 
mente uma hélice a de uma hélice 3 10 ou de uma hélice 
7i. Por outro lado, estas hélices podem apresentar de- 
formações importantes, também de difícil visualização. 
Assim, a combinação de representações visuais, quali- 
tativas, com medidas precisas, quantitativas, da estru- 
tra molecular é uma estratégia bastante útil no estudo 
de macromoléculas. 

A ideia de combinar múltiplas estratégias na apre- 
sentação de um determinado aspecto molecular não 
se limita somente às formas de descrever visualmente 
ou numericamente a estrutura molecular. Embora a vi- 
sualização de estruturas 1 árias , isto é, de sequências de 
nucleotídeos, aminoácidos ou monossacarídeos não 
nos ofereça muitos artifícios visuais, devemos nos 
lembrar que as formas apresentadas na Figura 17-2 
não informam o leitor facilmente sobre quais resíduos 
compõe a nossa macromolécula. É difícil distinguir, em 
representações de arames, bastões ou esferas, uma lie 


de uma Leu, e mesmo impossível em cartoon ou su- 
perfície. Portanto, pode ser muito útil combinar estas 
representações tridimensionais a alinhamentos de se- 
quências da região de interesse. 

0 mesmo vale para a apresentação de sequências 
isoladas de estruturas. Enquanto uma mutação em um 
único nucleotídeo pode interferir na função proteica, is- 
so não é feito pela troca de uma letra por outra na se- 
quência, mas por mudanças que esta troca acarretam 
na estrutura da proteína. 0 entendimento deste pro- 
cesso pode depender simplesmente da nossa imagina- 
ção ou da visualização da respectiva mudança na 
proteína. 

Existem diversas formas de apresentar 
estruturas tridimensionais de macromolécu- 
las, e escolher entre estas formas envolve 
tanto escolhas metodológicas quanto pesso- 
ais. Algumas propriedades são mais facil- 
mente observadas em alguns tipos de 
visualização. Por exemplo, o volume da ca- 
deia lateral de um resíduo de Vai é muito mais 
facilmente observável enquanto seus átomos 
são apresentados como esferas do que como 
bastões ou arames (Figura 17-2). Diferentes 
tipos de moléculas, similarmente, se benefi- 
ciam de algumas formas de visualização. Por 
exemplo, a forma de cartoon é a mais comum 
para descrever proteínas, mas é pouco útil na 


Arames 



Figura 17-2: Exemplo das formas de 

visualização mais comumente empregadas na 
descrição de biomoléculas, aplicadas a uma 
proteína. 
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descrição de carboidratos ou membranas. 

Em muitos casos poderemos empregar 
combinações destas formas, como na descri- 
ção por cartoon de uma proteína e de sua es- 
trutura de glicosilação como bastões. 

2.6. Conceitos-chave 

Antipatia: propriedade de moléculas que possu- 
em tanto regiões hidrofílicas quanto hi- 
drofóbicas. 

Cadeia lateral: região variável dos aminoácidos 
codificados no genoma, responsável pela 
variação de suas propriedades. 

Carbono anomérico: átomo de carbono nume- 
rado como 1 em carboidratos. A mudança 
em sua estereoquímica dá origem às for- 
mas anoméricas a e p em carboidratos. 

Carbono a: átomo de carbono do esqueleto 
peptídico no qual a cadeia lateral de cada 
aminoácido está ligada (referindo-se aos 
20 aminoácidos codificados no genoma 
para síntese proteica). É o primeiro átomo 
de carbono vizinho ao grupo carbonila. 

Conformação em bote torcido: forma adotada 
pelo anel de alguns monossacarídeos. 

Conformação em cadeira: forma adotada pelo 
anel de alguns monossacarídeos, seme- 
lhante a uma cadeira quanto vista de lado. 

Conformação em envelope: forma adotada pelo 
anel de alguns monossacarídeos, destaca- 
damente as furanoses. 

Dogma central da biologia molecular: represen- 
tação do fluxo de informação em sistemas 
biológicos, começando na molécula de 
DNA e culminando na síntese proteica - 
mas não no sentido oposto. Envolve prin- 
cipalmente os fenômenos de replicação, 
transcrição e tradução. 

Enovelamento: processo segundo o qual uma 
sequência polipeptídica adquire sua estru- 


tura tridimensional nativa, isto é, equiva- 
lente àquela observada em seu local bio- 
lógico de ação e funcional. Também 
chamado por alguns autores de dobra- 
mento. 

Equilíbrio pseudo-rotacional: processo de inter- 
conversão entre as diferentes conforma- 
ções adotadas por carboidratos. 

Esqueleto do DNA: parte da molécula de DNA 
composta pelas partes comuns a todos os 
nucleotídeos, isto é, o carboidrato e o 
grupo fosfato (ou seja, são excluídas as 
regiões das bases nitrogenadas). 

Esqueleto peptídico: estrutura de peptídeos ou 
proteínas sem as cadeias laterais dos 
aminoácidos (ou seja, somente as regiões 
comuns aos aminoácidos). 

Estrutura l ária : sequência de letras que compõe 
biomoléculas (principalmente DNA, RNA e 
proteínas, mas também carboidratos). 

Estrutura 2 ária : padrões estruturais definidos pe- 
la organização das unidades monoméricas 
(isto é, nucleotídeos, aminoácidos e mo- 
nossacarídeos) de cada biomolécula em 
formas tridimensionais. Estes padrões po- 
dem classificados segundo suas diferentes 
formas. 

Estrutura 3 aria : estrutura 3D completamente 
enovelada. 

Estrutura 4 aria : organização definida pela agre- 
gação de múltiplas estruturas 3 arias . 

Furanoses: monossacarídeos cujo anel é com- 
posto por 5 átomos, quatro de carbono e 
um de oxigênio. O nome vem da seme- 
lhança deste anel com o composto furano. 

Ligação fosfodiéster: ligação formada entre dois 
nucleotídeos, através de seus grupos fos- 
fato. 

Ligação glicosídica: ligação formada entre dois 
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monossacarídeos. 

Ligação peptídica: ligação formada entre dois 
aminoácidos, através do grupo amino de 
um resíduo e do grupo carboxila do outro, 
dando origem a uma função amida. 

Mapa de Ramachandran: um gráfico que des- 
creve a variação da energia em função da 
rotação dos ângulos de diedro cp e \|/, ao 
redor do Ca. 

Nucleosídeo: molécula formada por uma base 
nitrogenada ligada a um carboidrato (ri- 
bose ou desoxirribose), sem o grupo fos- 
fato. 

Nucleotídeo: molécula formada por uma base 
nitrogenada ligada a um carboidrato (ri- 
bose ou desoxirribose) e a um grupo fos- 
fato. 

Piranoses: monossacarídeos cujo anel é com- 
posto por 6 átomos, cinco de carbono e 
um de oxigênio. O nome vem da seme- 
lhança deste anel com o composto pirano. 

2.7. Leitura recomendada 

ALBERTS, Bruce; et ai. Biologia Molecular da 
Célula. 5.ed. Porto Alegre: Artmed, 2010. 

BLOOMFIELD, Victor A.; CROTHERS, Donald M.; 
TINOCO, JR., Ignacio. Nucleic Acids 
Structure, Properties, and Functions. 

Sausalito: University Science Books, 2000. 

GARRATT, Richard C., ORENGO, Christine A. The 
Protein Chart. Nova Iorque: Wiley-VCH, 
2008. 

PETSKO, Gregory A.; RINGE, D. Protein 
Structure and Function. New York: 
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I I 

ATATACTTGATCGATCAGCA ATATACTTGATCGATCAGCA 

ATATACTTG TTCCATCAGCT ATATACTTGTTCCATCAGCT 

ATATA CTTGTTCCATCAGCT ATATACTTGTTCCATCAGCT 

AT ATACT TGATCGA TTAGCT ATATACTTGATCGATTAGCT 


Alinhamento de múltiplas sequências. 

3.1. Introdução 

3.2. Alinhando sequências 

3.3. Tipos de alinhamento 

3.4. Alinhamento simples 

3.5. Alinhamento múltiplo global 

3.6. Alinhamento múltiplo local 

3.7. BLAST 

3.8. Significância estatística 

3.9. Alinhamento de 2 estruturas 

3.10. Alinhamento de >2 estruturas 

3.11. Alinhamento flexível 

3.12. Conceitos-chave 


3.1. Introdução 

O avanço nas técnicas de sequencia- 
mento do DNA tem permitido um crescente 
aumento no número de genomas disponíveis 
em bancos de dados públicos. Esta maior dis- 
ponibilidade exigiu um grande aumento na ca- 
pacidade computacional de armazenamento e 
no investimento em desenvolvimento de téc- 
nicas de processamento adequadas para a 
análise destes dados. Algoritmos de análise 
tiveram de ser criados e aperfeiçoados e, 
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dentre estes, as técnicas de alinhamento de 
sequências tornaram-se ferramentas essen- 
ciais e primordiais na análise de sequências 
biológicas. Atualmente, diversos programas 
ontine, ou mesmo de instalação local, são ca- 
pazes de alinhar centenas de sequências em 
poucos minutos. 

Devido à extensão de suas aplicações, o 
alinhamento de sequências biológicas é um 
processo de fundamental importância para a 
bioinformática. Conceitualmente, os alinha- 
mentos são técnicas de comparação entre 
duas ou mais sequências biológicas, que bus- 
cam séries de caracteres individuais que se 
encontram na mesma ordem nas sequências 
analisadas. 

Em geral, as moléculas consideradas 
por estes programas, sejam elas formadas 
por nucleotídeos (DNA ou RNA) ou aminoáci- 
dos (peptídeos e proteínas), são polímeros 
representados por uma série de caracteres, e 
a comparação entre as moléculas depende 
apenas da comparação entre as respectivas 
letras. Apesar da facilidade e da aparente 
simplicidade do processo, a análise de simila- 
ridade das sequências é uma tarefa complexa 
e uma etapa decisiva para grande parte dos 
métodos de bioinformática que fazem uso de 
sequências biológicas. 

Durante o alinhamento, as sequências 
são organizadas em linhas e os caracteres 
biológicos integram as colunas do alinha- 
mento (Figura 1-3). Seguido à organização ini- 
cial, algoritmos específicos buscarão a 
melhor correspondência para as sequências 
em questão, permitindo a criação de espaços 
entre estes caracteres para que, ao final, to- 
das as sequências tenham o mesmo compri- 
mento. Isto possibilita uma fácil visualização 
da similaridade, permitindo que caracteres 
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10 20 30 40 50 

i i i i i 

Sequência 01 atatacttgatcgatcagcatcagctagtcgaagtttgagcatgcatgtgtgatg 
Sequência 02 CTTGTTCCATCAGCTTCAGCTCGTCGAAGGAGCTGl TGTGTGA 
Sequência 03 CTTGTTCCATCAGCTTCAGCTCGT G GG G TGCA 

Sequência 04 atatacttgatcgattagcttcagctagtggagccagtatgtgtgtg 
★ ★ ★ ★ ★ ★ 


. 10 20 30 40 50 

b - I I I I I 

Sequência 01 ATATACTTGATCGATCAGCATCAGCTAGTCGAAGTTTG G TGC TGTGTGATG 
Sequência 02 cttgttccatcagcttcagctcgtcgaag — gagc-tgcatgtgtg -- 

Sequência 03 CTTGTTCCATCAGCTTCAGCTCGTCGAAG GAGCATGCA 

Sequência 04 atatacttgatcg tt gcttcagctagt g — gagccagt tgtgtg-tg 

★★★★ ★ ★ ★★ ★★★ ★★★★★★ ★★ ★ ★★★★ ★ ★ 

Figura 1-3: Alinhamento de quatro sequências de nucleotídeos envolvendo BB caracteres, a) 
Grupo de sequências não alinhadas, cada sequência ocupando uma linha individual, b) Grupo de 
sequências alinhadas, onde caracteres idênticos são dispostos em uma mesma coluna e estas 
são identificadas por asteriscos (dispostos na parte inferior do alinhamento). Nucleotídeos 
ausentes em determinadas sequências são substituídos por hífens para identificar eventos de 
inserção/deleção. 


idênticos ou similares em cada uma das se- 
quências integrem a mesma coluna. A ideia 
central destes algoritmos é minimizar as dife- 
renças entre as sequências, buscando um ali- 
nhamento ótimo. Comumente, a similaridade 
entre as sequências envolvidas é expressa 
pelo termo identidade, que quantifica a por- 
centagem de caracteres idênticos entre duas 
sequências. 

A relevância e abrangência do uso do 
método tornam os procedimentos de alinha- 
mento o cerne para diferentes campos dentro 
da grande área da bioinformática. Além de 
fundamentais em pesquisas de filogenética e 
análise evolutiva, os alinhamentos são exigi- 
dos em estudos de inferência estrutural e 
funcional de proteínas, análises de similarida- 
de e identificação de sequências e em estudos 
aplicados ao campo da genômica. 

Através dos métodos de alinhamento, é 
possível obter informações a respeito da re- 
lação evolutiva entre organismos, indivíduos, 
genes ou entre sequências diversas (Figura 
2a-3). Se duas sequências distintas podem 
ser alinhadas com certo grau de similaridade, 
é possível inicialmente assumir que elas com- 
partilharam, em algum momento do tempo 
passado, um ancestral comum e, por isso, 
são evolutivamente relacionadas. A partir da 
separação destas sequências de seu ances- 
tral comum, individualmente cada uma delas 


acumulou diferentes variações ao longo do 
processo evolutivo. 0 termo homologia é uti- 
lizado frequentemente para definir estes 
eventos onde, através da relação de ances- 
tralidade, dois indivíduos distintos possuem 
regiões em seu DNA (incluindo regiões codifi- 
cantes) herdadas de um ancestral comum. 
Neste caso, a similaridade deve-se à descen- 
dência comum e, portanto, as sequências en- 
volvidas na análise são ditas homólogas. 

Cabe ressaltar que a homologia não re- 
quer necessariamente alta identidade de ca- 
racteres entre as sequências, uma vez que a 
maior ou menor identidade entre elas depen- 
derá da taxa de evolução do organismo ou da 
espécie (consultar capítulo B). Ainda, a simi- 
laridade entre sequências pode ser gerada 
não somente por descendência, mas por 
pressão seletiva de um determinado ambien- 
te. Nestes casos, teremos regiões similares 
na sequência de nucleotídeos (ou aminoáci- 
dos) que surgiram de maneira independente, 
sem qualquer relação de descendência, e 
evoluíram por convergência, não sendo por- 
tanto homólogas. Assim, não é possível 
quantificar a homologia entre as sequências 
envolvidas, somente dizer se há ou não. 
Quando identificamos quantos caracteres se 
repetem nas mesmas posições entre duas ou 
mais sequências estamos, de fato, verificando 
a identidade entre estas, e não a homologia. 
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Sequência Ü1 
Sequência 02 
Sequência 03 
Sequência 04 


b. 

Desconhecida 

Conhecida 


10 20 


T..TACTTGATCG TCAGCATCAGC 

CTTGTTCCATCAGCTTCAGC 

CTTGTTCCATCAGCTTCAGC 

ATATACTTGATCGATTAGCTTCAGC 
★ ★** *★ ★ * ★ ★* ★ *★★★ 

10 20 30 40 50 


LRK DC EHGILKMD P : KMH VDHKMKDM KD: PH. PKCCMK MV C: MGP 
K RK DC E GIHKHD P .KMH VDH P MKPKD P H Q PKMCMK S MV : ' C M 



Sequência 01 
Sequência 04 
Sequência 02 
Sequência 03 


******* ** * ************* ******** ********* 


Alfa-hélice 


Beta-folha 


10 20 30 40 50 

I I I I I 

Desconhecida ILKMD F KM VDHKMKDM. KD PI PKCCMK.. MV C M P 

Conhecida E GI KHPKMCD P KD- KMH .VD. KM DMPKDSPHQ PKMCMK C D L 

★ * ★*★*★*★★★★★★★★★***★★★★ ★★★ ★ ★ 

Função catalítica 


Não Afetado 
Não Afetado 
Afetado 
Afetado 


10 20 30 40 50 


ATATACTTGTTCGATCAGCTTCAGCTAGTCGAAGTTT GAGCCTGCAT 

ATATACTTGTTCGATCAGCTTCAGCTAGTCGAAGTTTTTT GAGCCTGCAT 

ATATACTTGTTCG TC GCTT GTCGAAGTTTTTTTTT — GAGCCTGCAT 

ATATACTTGTTCGATCAGCTTCAGCTAGTCGAAGTTTTTTTTTTTGAGCCAGTAT 
************************************* ********** 


Figura 2-3: Aplicações dos métodos de alinhamento de sequências biológicas, a) Inferência 
filogenética a partir do alinhamento de quatro sequências de nucleotídeos. b) Inferência da 
estrutura de uma proteína alvo (Desconhecida) a partir do alinhamento com uma sequência de 
aminoácidos cuja estrutura tridimensional é conhecida (Conhecida), c) Inferência da função de 
um domínio proteico a partir da comparação de sequências de aminoácidos. d) Comparação de 
sequências de uma porção de determinado gene de indivíduos afetados e não afetados por uma 
doença genética. Os asteriscos identificam colunas com total similaridade dos caracteres. 


As técnicas de alinhamento vêm se 
mostrando fundamentais na construção de 
algoritmos que visam comparar a informação 
de diversas sequências biológicas. À exemplo 
do programa BLAST, estes algoritmos permi- 
tem comparar uma sequência alvo com mi- 
lhares de dados disponíveis em grandes 
bancos de armazenamento, fornecendo um 
valor de significância estatística associada a 
esta comparação de similaridade. Devido à 
facilidade de acesso e rapidez no processa- 
mento de dados, estes programas vêm cada 
vez mais ampliando as possibilidades e op- 
ções para o tipo de comparação ou pesquisa a 
ser realizada. 

Os métodos de alinhamento podem ain- 
da ser necessários para fornecer informa- 
ções a respeito da função e da estrutura de 
sequências biológicas, particularmente nos 
alinhamentos de ribonucleotídeos e aminoáci- 
dos (Figura 2-3). Nestes casos, a similaridade 
entre duas ou mais sequências (dada em por- 


centagem) revela padrões referentes à com- 
posição química e podem fornecer 
embasamento para a definição de um arranjo 
tridimensional semelhante, principalmente no 
caso de proteínas (Figura 2b-3). A mesma 
relação é feita para inferir a função de domí- 
nios de uma proteína recém-descoberta, ain- 
da sem função definida. Sabendo que sua 
forma está diretamente relacionada à sua 
função, através da comparação com outras 
proteínas com estrutura e função já estabe- 
lecidas, é possível inferir a função realizada 
por determinado domínio da proteína sob in- 
vestigação (Figura 2c-3). Nestes casos, as 
sequências envolvidas no alinhamento não 
são necessariamente homólogas. Através do 
fenômeno da evolução convergente, diferen- 
tes regiões codificantes do DNA podem gerar 
produtos proteicos com funções similares, 
sem obrigatoriamente compartilharem um 
ancestral comum. 

Finalmente, as técnicas de alinhamento 
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têm grande importância para a análise de ge- 
nes e genomas. Com o aumento da disponibi- 
lidade de sequências nucleotídicas de 
genomas completos, e mesmo com o surgi- 
mento de modernas técnicas de biologia mo- 
lecular, como o microarray e deep 
s equencing, os métodos de comparação per- 
mitiram o entendimento a respeito da variabi- 
lidade genética de indivíduos e populações. 

A comparação entre genomas de dife- 
rentes espécies, ou até mesmo de indivíduos 
da mesma espécie, possibilita a análise de va- 
riações (mutações ou polimorfismos) nas se- 
quências e, em alguns casos, permite a 
identificação de relações entre variações no 
DNA e susceptibilidade a determinadas doen- 
ças, beneficiando o campo da genética e áreas 
relacionadas. Adicionalmente, como um re- 
curso para a caracterização de eventos evo- 
lutivos, os alinhamentos permitem análises 
comparativas entre genomas. A abrangência 
e importância evolutiva dos eventos de que- 
bra e reparo de DNA, ou mesmo dos eventos 
de recombinação, inversões e translocações, 
tem sido desvendados, primariamente, atra- 
vés dos métodos de alinhamento. 

Além do alinhamento de sequências, o 
alinhamento de estruturas constitui outra im- 
portante ferramenta em estudos de bioinfor- 
mática. A metodologia é bastante diferente 
daquela empregada em alinhamentos de se- 
quências, pois passamos de um problema uni- 
dimensional para um problema 
tridimensional. Sua utilização passou a ser di- 
fundida a partir de 1978, com o trabalho de 
Rossmann e Argos, comparando os sítios ati- 
vos de enzimas cujas estruturas eram conhe- 
cidas até aquele momento. Os métodos de 
sobreposição simples de estruturas estão 
disponíveis há mais tempo, tendo sido pro- 
postos a partir da década de 1970, enquanto 
os métodos de comparação e alinhamento se 
desenvolveram posteriormente, principal- 
mente a partir da década de 1990. 

A comparação de estruturas se refere à 
análise de similaridades e diferenças entre 
duas ou mais estruturas, enquanto o alinha- 
mento de estruturas se refere à determina- 
ção de quais aminoácidos seriam equivalentes 


entre tais estruturas. É importante destacar 
também a diferença entre alinhamento e so- 
breposição de estruturas. Apesar desses ter- 
mos ainda serem empregados na literatura 
como sinônimos, eles se referem a procedi- 
mentos diferentes. Conforme mencionado 
acima, enquanto o alinhamento de estruturas 
busca identificar equivalências entre pares de 
aminoácidos nas estruturas a serem sobre- 
postas, a sobreposição necessita desse co- 
nhecimento prévio sobre as equivalências. 

Sendo assim, a sobreposição estrutural busca so- 
lucionar um problema muito mais simples, ou seja, mi- 
nimizar a distância entre dois resíduos já reconhecidos 
como equivalentes. Isso se dá por encontrar transfor- 
mações que satisfazem o menor desvio médio quadrá- 
tico (RMSD) ou as equivalências máximas dentro de um 
valor limite para o RMSD. 

Considerando que a estrutura das pro- 
teínas é mais conservada que a sequência, o 
alinhamento de estruturas confere maior es- 
pecificidade ao alinhamento de sequências 
quando comparado ao alinhamento de se- 
quências independente de estrutura. A maio- 
ria dos métodos de sobreposição de 
estruturas é adequado para identificar simi- 
laridades entre estruturas proteicas. 0 ali- 
nhamento de duas ou mais estruturas, 
porém, constitui uma tarefa mais difícil, e sua 
precisão depende tanto do método usado 
quanto do objetivo do usuário. 

3.2. Alinhando sequências 

À primeira vista, o processo de alinha- 
mento entre diferentes sequências parece 
simples e não sujeito a qualquer tipo de erro. 
No entanto, esta afirmativa só é verdadeira 
em casos onde os organismos envolvidos 
possuem uma baixa taxa evolutiva (Figura 3a- 
3). Quando consideramos sequências homó- 
logas amostradas de organismos com alta 
taxa evolutiva, ou até mesmo sequências si- 
milares, porém não homólogas, nos depara- 
mos com casos particulares que tornam o 
processo de alinhamento complexo e, muitas 
vezes, sujeito a uma interpretação especial- 
mente subjetiva por parte do usuário (Figura 
3b-3). 
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A comparação de sequências homólo- 
gas de organismos evolutivamente distantes 
é um desafio para os programas de alinha- 
mento. As diferentes pressões seletivas mol- 
dam os genoma5 de maneira imprevisível e, 
muitas vezes, acarretam a perda ou ganho de 
nucleotídeos ao longo do processo evolutivo. 
Para estes casos, a adição de lacunas [gops) 
em matrizes de alinhamento, representadas 
por é possível e muitas vezes necessária. 
As lacunas representam um ou mais eventos 
de inserção ou deleção de nucleotídeos. Estes 
eventos, comumente chamados de “indels” ( in 
para inserção, e dei para deleção), são fruto 
de processos mutagênicos (espontâneos ou 
induzidos) e, dependendo da região atingida, 
podem ser expressos nas moléculas de RNA 


e nas proteínas, onde poderão gerar conse- 
quências moleculares. Erros de replicação 
gerados pela DNA-polimerase durante a re- 
plicação do DNA, ou mesmo os eventos de 
recombinação, são os principais fatores atre- 
lados à geração destes indels nos genomas. 
Em regiões codificadoras, estes eventos po- 
dem acarretar mudanças no quadro de leitura 
da proteína e torná-la não funcional. 

Em termos analíticos, a inserção de la- 
cunas dificulta o processo de alinhamento e 
exige interpretações cautelosas. Para deter- 
minados casos, especialmente em análises 
evolutivas e filogeográficas, é comum que 
regiões do alinhamento com determinado ní- 
vel de incerteza, especialmente regiões com 
grande número de lacunas, sejam eliminadas 


a. 

Sequências Dadas: 

10 20 30 40 50 

I I I I I 

Sequência 01 t T TTG TCGAT GCATCAGCTAGTCGAT GCT G GG GC TG TGTGT 

Sequência 02 TTG T TCAGCAT GCTAGTCGATAGCT GCAGAGC TGC TGTGT 
★ ★ ★*★★*★ ★ ★ * ★ ★ 


Sequências Alinhadas: 


Sequência 01 T TACTTGATCG ATC GCATCAGCT GTCG T GCT G GG GC TG : TGTGT 

Sequência 02 TTGATCAATCAGCATCi G T GT G T lGCTAGCAGAG G TGTGT 

****** ★★★*★**★★*★★*★★***★★*★★★★★* ★*★*★★**★★*★★★ 


Sequências Dadas: 


10 

• • 


20 

. I • 


30 

. I • 


40 

. I • 


Sequência 01 : TTTTGATCGATCAGC/ GGAGCATGAT 

Sequência 02 ATTTGATTCGAACAGCAAGTCGATAGCTAGCAGAGCATGAT 


Alinhamento 01: 

10 


20 


30 

I 


40 


50 


Sequência 01 t T CTTTTTTGAT-CGATCAGCATCAGCTAGTCGATAGCTAGCGGJ G : TG T 

Sequência 02 A-TT TGATTCGAACAG CAAGTCGATAGCTAGCAGAGCATGAT 

* ** **** *** *** * ************** ********* 


Alinhamento 02: 


40 

• I • 


50 

. I - 


60 

• I • 


70 


Sequência 01 AGCATCAGCT. GTCGAT GCT, GCGGAGCATGAT 

Sequência 02 ATTTGATTCGAACAGCAAGTCGA 

* * 


Alinhamento 03: 


30 


40 


50 


Sequência 01 T T TTTTTTG T- G T .GCATCAGCT. GT G T G T G GG G 
Sequência 02 : TG TT G G GT CG AT G TTAGCAGAGC 


★★★★★★ *★★ ★★★ ★* ★ ★★★★★★★*★★★ ★★*★★★★★★ 


Figura 3-3: Alinhamentos de nucleotídeos. o) Duas sequências homólogas originadas de 
organismos com baixa taxa de evolução são dadas e seu alinhamento é proposto, b) Duas 
sequências homólogas amostradas de organismos com alta taxa de evolução são dadas e 
diferentes alinhamentos são propostos. 0s hifens representam eventos de inserção ou deleção 
únicos na sequência. Os asteriscos identificam colunas com total similaridade dos caracteres. 


43 


3. Alinhamentos 



da análise. Contudo, até o momento não exis- 
tem programas capazes de lidar com as lacu- 
nas de forma coerentemente biológica. 
Apesar de sabermos que se tratam de even- 
tos evolutivos comuns e bem caracterizados, 
as incertezas sobre o número de eventos e 
sua intensidade tornam as lacunas, em gran- 
de parte dos casos, um fator de confusão pa- 
ra análises de alinhamento. 

Conforme mostrado na Figura 3-3, dife- 
rentes alinhamentos são possíveis para um 
mesmo grupo de sequências. A pergunta que 
se segue é: como reconhecer o melhor resul- 
tado quando nos deparamos com diversos 
alinhamentos possíveis para um mesmo con- 
junto de dados? Buscou-se resolver este pro- 
blema através da criação de um sistema de 
pontuação para comparar os resultados de 
diferentes alinhamentos. Caracteres idênticos 
em sequências diferentes representam igual- 
dades ou correspondências (matche s) e, por 
serem resultados preferenciais durante o 
processo de alinhamento, são pontuados po- 
sitivamente. Pelo contrário, caracteres não 
idênticos que ocupam a mesma coluna são 
chamados de desigualdades, ou mismatches, 
e recebem atribuições negativas. Como resul- 
tado, o melhor alinhamento possível para du- 
as sequências é aquele que maximiza a 
pontuação total, somando os valores de 
matche s e debitando os valores de 
mismatches. 

Do ponto de vista biológico, as mudan- 
ças entre as bases nitrogenadas nas sequên- 
cias de nucleotídeos não ocorrem com a 
mesma probabilidade (Figura 4a-3). Sendo 
assim, podemos atribuir valores de 
mismatche5 diferentes às transições (trocas 
de purinas por purinas ou pirimidinas por piri- 
midinas) e às transversões (trocas de purinas 
por pirimidinas ou pirimidinas por purinas). 
Para sequências de aminoácidos, é necessário 
escolher ativamente uma matriz de pontua- 
ção específica. Essas matrizes são resultados 
diretos de estudos de variação proteica e es- 
tão diretamente relacionadas à probabilidade 
de substituição de um aminoácido por outro 
(matrizes BLOSUM e PAM). Atualmente, as 
matrizes BLOSUM são as mais disseminadas 


e aplicadas para os mais diversos casos de 
comparação entre sequências de aminoácidos 
(Figura 4b-3). 


a. 

A 

C 

G T 

b. 

A R N 

D 

C 

Q 
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G 

H I 

L K M 
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Figura 4-3: Matrizes de custo utilizadas no 
cálculo de pontuação dos alinhamentos, o) 
Matriz de custo exemplo utilizada para 
cálculos de pontuação em alinhamentos de 
nucleotídeos. b ) Matriz de custo BL0SUM62 
utilizada para cálculo da pontuação em 
alinhamentos de aminoácidos. 

Ainda, é necessário que as lacunas de 
alinhamentos recebam determinadas pontu- 
ações, pois são frequentemente encontradas 
em alinhamentos de dados biológicos. Se la- 
cunas podem ser adicionadas em qualquer 
posição sem qualquer restrição, tanto nas 
extremidades quanto no interior das sequên- 
cias, é possível gerar alinhamentos com mais 
lacunas do que propriamente caracteres a 
serem comparados (Figura 3b-3, alinhamento 
2). Com o intuito de prevenir inserção exces- 
siva, a adição de lacunas é penalizada durante 
a atribuição da pontuação de uma sequência, 
conforme um conjunto de parâmetros, cha- 
mado de penalidades por lacuna ( gap 
penaities, PL). A abrangência da lacuna é 
pontuada pelo respectivo número de indets 
presentes no alinhamento. A fórmula mais 
comum para cálculo destas penalizações se- 
gue abaixo: 

PL=g + e(L- 1 ) 

onde t é o tamanho da lacuna (número de 
indets presentes na lacuna), g é a penalidade 
pela abertura da lacuna (necessária para evi- 
tar que os alinhamentos contenham lacunas 
desnecessárias) e e é a penalidade atribuída a 
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cada indel (novamente para evitar grandes 
Lacunas sem necessidade). Os valores de pe- 
nalidade por Lacuna são desenhados para re- 
duzir a pontuação de um alinhamento quando 
este possui uma quantidade de indels desne- 
cessária. Apesar da disseminação deste con- 
ceito, não há qualquer relação matemática ou 
biológica sustentando este cálculo. É impor- 
tante destacar que, através da propriedade de 
“alinhamento Livre de colunas em branco” (ou 
seja, gaps não são alinhados), as penalizações 
ainda impedem o alinhamento de indels entre 
as sequências envolvidas na análise. Assim, o 
melhor alinhamento entre as sequências será 
dado por um valor que resulta da soma dos 
valores associados a cada um dos motche s, 
mismatches e Lacunas, de acordo com um 
critério pré-definido (Figura 5-3). 

0 método de pontuação foi a solução 
encontrada para avaliar e classificar diferen- 
tes alinhamentos em busca da melhor expli- 
cação para a relação evolutiva entre as 
sequências. 0 próximo problema encontrado 
foi enumerar todas as possibilidades de ali- 
nhamentos para um grupo de dados. Assu- 
mindo-se duas sequências com tamanho de 
1ÜÜ caracteres cada, poderíamos enumerar 
até 10 77 possíveis alinhamentos, diferentes 
entre si. A extensão de possibilidades inviabi- 
liza a enumeração de todos os casos devido 
ao tempo e ao requerimento de enorme pro- 
cessamento destes dados. Apesar da exigên- 
cia computacional, alguns algoritmos são 
capazes de realizar tal tarefa e ainda aplicar o 
método de pontuação para cada um dos ca- 
sos, em busca do melhor resultado. No en- 
tanto, estes algoritmos não são capazes de 
lidar com sequências que contenham mais 
que algumas dezenas de caracteres. Em vir- 
tude da capacidade de explorar todas as so- 
luções do problema, o processo realizado por 
estes algoritmos é chamado de “alinhamento 
ótimo”. 

Contudo, em virtude da inerente demora 
do processo, foi necessário desenvolver al- 
goritmos que acelerassem a busca de um ali- 
nhamento capaz de explicar de maneira ótima 
os processos evolutivos para um determina- 
do grupo de sequências sem, no entanto, 


enumerar todas as possibilidades. Os alinha- 
mentos gerados por estes programas são 
chamados heurísticos, e compreendem mé- 
todos aproximados de busca pelo resultado 
ótimo. Diferentes métodos foram criados pa- 
ra diferentes tipos de alinhamento (Figura 6- 
3). Entre estes, devido à eficiência e à rapidez 
de processamento das informações de um 
alinhamento, incluindo o cálculo de pontua- 
ção, os algoritmos de programação dinâmica 
são, atualmente, os mais utilizados para este 
fim, tanto em alinhamentos simples como in- 
tegrado aos algoritmos de alinhamentos 
múltiplos. 

É fundamental assumirmos, para a mai- 
or parte dos problemas em bioinformática, o 
alinhamento como um modelo de relação 
evolutiva entre as sequências envolvidas. E 
como modelo, está sujeito à presença de cer- 
tos problemas na explicação dos eventos 
evolutivos reais. Portanto, os alinhamentos 
devem ser avaliados com extrema cautela. A 
facilidade e a aparente simplicidade na análise 
dos programas tornam o processo mecânico 
e desvinculado de análises críticas pela maior 
parte dos usuários. A associação dos méto- 
dos de alinhamento a outras análises de bio- 
informática tende a desvincular a real 
importância desta técnica e a coloca apenas 
como um procedimento, e não formalmente 
como uma técnica sujeita à análise crítica. Isto 
pode ocasionar na obtenção de modelos in- 
corretos ou mesmo de falsos positivos. 

3.3. Tipos de alinhamento 

Em estudos de bioinformática, é comum 
compararmos moléculas de dois ou mais in- 
divíduos, sejam eles da mesma espécie ou de 
espécies diferentes. Quanto maior o número 
de sequências comparadas, maior o tempo 
exigido para conclusão do alinhamento e, de- 
pendendo das sequências envolvidas, maior a 
dificuldade dos algoritmos em encontrar o 
melhor resultado. Conforme a quantidade de 
sequências envolvidas, podemos dividir os 
alinhamentos em dois tipos: alinhamentos 
simples, ou par-a-par, e alinhamentos múlti- 
plos, ou de múltiplas sequências (Figura 7-3). 
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Sequências Dadas: 


Sequência 01 TTG TCGATCATCAGCTAGTCGATAGCT 
Sequência 02 TTGATCAATCAGCATACGCTAGTCGATAGCT 
★★**** ★ ** * * 


b. 


Alinhamento 01: 


Sequência 01 G TCGATC ATCAGCTAGTCG 

Sequência 02 G T 


****** *** ** ********** *** 


PL = g + e (L-l) PL = g + e (L-l ) 

PL = (-4) + (-3 ).(3- 1 ) PL = (-4) + (-3).(4- 1 ) 

PL = -10 PL = -13 


♦(-2) = 4. (-2) = -8 


= -8 
= +24 

= (-10) + (-13) 
= -7 


C. 


Alinhamento 01: 


Sequência 01 TTG TCG TC TC -GC — T GT G T G T G G 
Sequência 02 TTG TC&ATCAGCATACG T GT G T G T 


c 


*.l 


PL = g + e (L-l) PL = g + e (L-l) 

PL = (-4) + (-3).( 1 - 1 ) PL = (-4) + (-3).(4- 1 ) 
PL = -4 PL = -13 

' ' I — 

PL = g + e (L-l) 

PL = (-4) + (-3).(2-l) 


PL = -7 


.(-2) = 4. (-2) = -8 


= -8 
= +24 

= (- 4) + (-7) + (-13) 
= -8 


Abertura de lacuna (g) = -4 Extensão da Lacuna (e) = -3 Mismatch = -2 Match = 1 

Figura 5-3: Esquema de pontuação para avaliação de alinhamentos, a) Duas sequências de 
desoxirribonucleotídeos não alinhadas, b) Proposição de um alinhamento para as sequências 
dadas em a. 0 alinhamento possui 24 colunas de matches, 4 colunas de mismatches e duas 
lacunas com 3 e 4 indeis. A pontuação total para o alinhamento desta sequência é -7. c ) 
Proposição de um segundo alinhamento para as sequências dadas em a. 0 alinhamento possui 
24 colunas de matches, 4 colunas de mismatches e três lacunas com 1, 2 e 4 indeis. A 
pontuação total para o alinhamento desta sequência é -8. A partir deste exemplo, o 
alinhamento com a maior pontuação é o mostrado em b. 0s valores de pontuação utilizados 
neste exemplo são especificados na parte inferior da figura. 


0s alinhamentos simples descrevem especifi- 
camente a relação de similaridade entre duas 
sequências quaisquer. Já os alinhamentos 
múltiplos incluem três ou mais sequências na 
análise de similaridade e, dependendo do ob- 
jetivo do usuário, podem envolver até cente- 
nas de sequências. 

Conceitualmente, ainda podemos dividir 
os alinhamentos, tanto simples, como múlti- 
plos, em dois grandes tipos. 0s alinhamentos 
que levam em consideração toda a extensão 
das sequências são conhecidos como globais, 
enquanto aqueles que buscam pequenas re- 
giões de similaridade são chamados de locais 


(Figura 7-3). Em algoritmos que buscam o 
alinhamento global de duas sequências, re- 
força-se a busca do alinhamento completo 
das sequências envolvidas, procurando incluir 
o maior número de matches do início ao final 
das sequências. Quando necessário, estes al- 
goritmos permitem a inserção de lacunas pa- 
ra que as sequências tenham o mesmo 
tamanho no resultado do alinhamento (Figura 
7b-3). 

Graficamente, os sítios com caracteres 
idênticos são representados ligados por bar- 
ras verticais, enquanto os sítios que possuem 
caracteres diferentes nas duas sequências, ou 
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Alinhamento 


Alinhamento Simples 

(Local e Global) 


Alinhamento Múltiplo 


- Matriz de Pontos 

- Programação Dinâmica 

- Método de Palavra ( K-Tuple ) 


Global 


- Alinhamento Progressivo 

- Pontuação Baseada em Consistência 

- Métodos Interativos de Refinamento 

- Algoritmos Genéticos 

- Modelos Ocultos de Markov 


Local 


- Análise de Perfis 

- Análise de Blocos 

- Análise de Motivos 


Figura 6-3: Tipos de alinhamento e os 
algoritmos aplicados à bioinformática. 

mesmo a presença de uma lacuna em uma 
delas, permanecem sem qualquer notação 
(Figura 7-3). 0 principal algoritmo envolvido 
no processamento de alinhamentos globais é 
aquele desenvolvido por Needleman e 
Wunsch durante a década de 1970. Além de 
ter uma notável importância metodológica, 
este algoritmo tem grande importância na 
história do alinhamento, pois foi o primeiro 
algoritmo a aplicar o método de programação 
dinâmica para a comparação de sequências 
biológicas. 

Em seu início, os métodos de alinha- 
mento eram utilizados especialmente para a 
comparação par-a-par de sequências de pro- 
teínas inteiras. No entanto, com a ampliação 

a. 


da disponibilidade de sequências completas 
de proteínas, foi necessário buscar métodos 
de alinhamento que privilegiassem a busca de 
similaridade, não entre sequências completas, 
mas apenas entre porções isoladas destas 
sequências. Durante a década de 1980 iniciou- 
se o desenvolvimento de novos algoritmos de 
alinhamento, já que os desenvolvidos até 
aquele momento não eram aplicáveis para 
esta particularidade. Entre estes novos algo- 
ritmos, o desenvolvido por Smith e 
Waterman, em 1981, ganhou maior destaque 
e atualmente é o principal algoritmo utilizado 
por programas para realização de alinhamen- 
tos locais. Nestes casos, privilegia-se o ali- 
nhamento de partes da sequência, buscando 
apenas as regiões com a maior similaridade 
(Figura 7c-3). Em algoritmos para busca lo- 
cal, o alinhamento pára no final das regiões 
de alta similaridade e substitui as regiões ex- 
cluídas por hifens (lacunas) no resultado final 
(Figura 7c-3). 

3A Alinhamento simples 

Para entender como se processa um 
alinhamento par-a-par e como o grau de si- 


Alinhamento Dado: 


Sequência 01 T TACTTTTTTGATCGATCAGCATCAGCTAGTCGATAGCTAGCT 
Sequência 02 TTTA TTTG TTCAG, ACAGCGGCTG 


******* * * 

Alinhamento Global: 


Sequência 01 .TATACTTTTTTGAT-C-G TCAGC T G T GTCG T GCTAGCT 
II I I I I I I I I I I I I II I I I I I 

Sequência 02 -T-T — TAATTTGATTCAGAAC G --G GCT-G — 


c. 

Alinhamento Local: 


Sequência 01 ATATACTTTTTTG TCGATCAGCATCAGCT/ GTCGATAGCT 

I I I I I I 

Sequência 02 ATTTGAT TCAG-AACAGC 


Figura 7-3: Diferenças entre alinhamento local e global, a) Duas sequências de nucleotídeos de 
tamanhos diversos são amostradas e alinhadas por algoritmos diferentes, b) No alinhamento 
local, a prioridade é encontrar as regiões altamente similares, independentemente do tamanho 
desta região. Neste caso, porções da sequência que não foram alinhadas com alta similaridade 
foram excluídas do resultado final, c ) No alinhamento global, as duas sequências são alinhadas 
por completo, independentemente do número de lacunas que tenham que ser inseridas. 
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milaridade entre elas pode ser computado, 
apresentamos três dos principais algoritmos 
desenvolvidos para este fim: algoritmos de 
programação dinâmica, análise de matriz de 
pontos (dot motrix ) e método de palavra ou k- 
tuple. 

A programação dinâmica é, atualmente, 
o método mais utilizado por programas para 
realizar o alinhamento de sequências. Em ca- 
sos simples (par-a-par), é capaz de encontrar 
o melhor alinhamento para duas sequências 
através da aplicação da pontuação de simila- 
ridades. É, portanto, um método de execução 
relativamente rápida nos computadores mo- 
dernos, requerendo um tempo e memória de 
processamento proporcional ao produto do 
tamanho das duas sequências envolvidas. 

0 método é baseado no princípio de oti- 
mização de Bellmann, e propõe a solução de 
problemas complexos através da resolução 
dos seus diversos subproblemas. Os subpro- 
blemas são resolvidos e seus resultados são 
armazenados pelo algoritmo. A vantagem 
funcional da resolução em partes é que, ge- 
ralmente, problemas complexos combinam 
uma série de subproblemas. Como o algorit- 
mo acumula os resultados dos diferentes 
subproblemas, acelera a resolução do pro- 
blema complexo. Assim, a designação “pro- 
gramação” nada tem a ver com programação 
de computadores, mas com a organização 
dos resultados já solucionados para resolu- 
ção de um problema maior. 

Conforme discutimos anteriormente, em 
determinados casos, duas sequências podem 
apresentar diferentes alinhamentos. Se não 
há indels e as sequências são similares, o ali- 
nhamento é rápido e não deixa dúvidas. No 
entanto, quando existe certa diversidade en- 
tre as sequências envolvidas e uma quantida- 
de suficiente de indeis, a solução para o 
alinhamento é menos óbvia visualmente. 
Nestes casos, os algoritmos de programação 
dinâmica buscarão solucionar os subproble- 
mas envolvidos e fornecerão o melhor resul- 
tado. 

Para cálculo do melhor alinhamento en- 
tre duas sequências, o algoritmo de progra- 
mação dinâmica necessita da especificação de 


um esquema de pontuação, seja ele referente 
a nucleotídeos ou aminoácidos. Da mesma 
forma, é necessário fornecer um valor de pe- 
nalidade para a abertura e extensão das la- 
cunas. A partir destas informações, o 
algoritmo calculará uma relação entre todos 
os caracteres das sequências e fornecerá o 
melhor alinhamento como resultado final. 

Como exemplo, consideraremos a Figu- 
ra 8-3. São dadas duas sequências, sequência 
1 e sequência 2, um esquema de pontuação e, 
para facilitar o entendimento do cálculo, um 
valor único de penalidade por lacuna de -8. 0 
algoritmo toma as sequências e transforma a 
relação entre elas em uma tabela, onde as li- 
nhas são definidas pelos caracteres da se- 
quência 01, e as colunas pelos caracteres da 
sequência 02. A fim de permitir lacunas no 
início do alinhamento, o algoritmo impõe a in- 
serção de uma coluna e de uma linha iniciais 
contendo o símbolo de indeí A partir deste 
ponto, para cada um dos elementos da ma- 
triz, o algoritmo calculará a melhor pontua- 
ção dos subcaminhos associados ao 
alinhamento: uma substituição, uma inserção 
na sequência 01 ou uma inserção na sequência 
2. Assim, o melhor subcaminho será calcula- 
do segundo uma função de pontuação, con- 
forme abaixo: 

Í valor da célula na diagonal superior esquerda + pontuação da similaridade 
valor da célula acima + valor da penalidade por lacuna 
valor da célula à esquerda + valor da penalidade por lacuna 

A partir do elemento (1,1) da matriz e ao 
longo da primeira linha, apenas a terceira 
condição é satisfeita (valor da célula à es- 
querda + valor da penalidade por lacuna). Na 
primeira coluna, apenas a segunda condição é 
satisfeita. Para outros elementos, as três 
condições devem ser calculadas e aquela que 
resultar no maior valor é escolhida para for- 
mar a matriz. Alem disso, os procedimentos 
dos algoritmos de programação dinâmica po- 
dem ser representados por pequenas setas 
para indicar qual subcaminho obteve o melhor 
valor (Figura 8-3). 

Outro método importante na área de 
alinhamento de sequências é a análise de ma- 
triz de pontos ou matriz dot. É um método 
simples e bastante eficiente em análises de 
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d. 

Alinhamento Resultante: 

Sequência 01 ACCGT 

I I I 

Sequência 02 A — GT 



Caracter da Sequência 1, lacuna na sequência 2 
Caracter da Sequência 2, lacuna na sequência 1 
Caracteres das duas sequências 


Figura 8-3: Alinhamento de duas sequências de nucleotídeos através do método de 
programação dinâmica, a) As sequências a serem alinhadas são dispostas em uma tabela onde 
o número de colunas corresponde ao número de caracteres da sequência 1 mais um (devido à 
adição de uma coluna para uma lacuna) e o número de linhas corresponde ao número de 
caracteres da sequência 2 mais um. 0 caractere atribuído à primeira linha e à primeira coluna é, 
por definição, o símbolo atribuído a uma lacuna. Através da matriz de penalidades calculam- 
se os valores para as três possibilidades F(i,j), buscando a equação que resulte no maior valor. 
0 valor arbitrário de penalidade por lacuna ( PL ) é de -8. Em virtude de a primeira linha não 
possuir valores de comparação na diagonal superior esquerda e acima, considera-se apenas a 
terceira equação, b) 0 valor demarcado em verde é o primeiro a ser calculado após o 
preenchimento da primeira linha e primeira coluna, representando o menor valor encontrado no 
cálculo para F(ij). Além do cálculo, o algoritmo de programação dinâmica insere informações a 
respeito da direção da informação. Como o valor “1” foi o maior valor encontrado e representa o 
cálculo utilizando a informação situada na diagonal superior esquerda, demarcada em verde, 
insere-se uma seta nesta direção, c) 0 preenchimento completo da tabela e as respectivas setas 
ilustrando a direção da informação. Algumas casas estão demarcadas com duas setas, pois 
apresentaram dois valores máximos idênticos na resolução das equações. Ao final dos cálculos, 
iniciando pelo canto inferior direito, seguem-se as setas em busca dos maiores valores, d) 
Relacionando os dados da tabela com a simbologia apresentada, chega-se ao alinhamento final 
entre as sequências 1 e 2. 
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deleções/inserções e para detectar repetições 
diretas ou inversas, especialmente em se- 
quências de nucleotídeos. Além disso, vem 
sendo utilizado para buscar regiões de parea- 
mentos intra-cadeia capazes de formar es- 
truturas 2 árias em moléculas de RNA. Este 
método permite a visualização gráfica das 
regiões de similaridade entre sequências 
através da construção de uma matriz de 
identidade. O número de linhas desta matriz é 
definido pelo número de caracteres de uma 
das sequências, e o número de colunas é de- 
finido pelo número de caracteres da outra 
sequência a ser comparada (Figura 9-3). É 
primariamente um método visual, e não for- 
nece o alinhamento propriamente dito como 
resultado final, embora seja frequentemente 
utilizado quando se deseja visualizar as re- 
giões de similaridade entre duas sequências. 

Sequência 01 


CTAGGGGATGCAGT AGACCTGA 



Figura 9-3: Análise de matriz de pontos de 
duas sequências de DNA. Os pontos 
assinalados em cinza representam a 
concordância de caracteres entre a sequência 
1 e a sequência 2. A partir da diagonal direita 
inferior, são traçadas diferentes retas. Aquela 
que atingir o maior número de pontos 
assinalados deve ser escolhida como 
resultado para o alinhamento entre as duas 
sequências. A linha contínua representa a 
possibilidade mais adequada a esta análise e 
as linhas tracejadas representam 
possibilidades de insucesso. 

Neste método, inicialmente, uma das 


sequências é disposta na vertical e a outra na 
horizontal (Figura 9-3). Regiões do gráfico 
que possuam o mesmo caractere tanto na 
sequência disposta na horizontal, quanto na 
sequência disposta na vertical, serão assina- 
lados. Esta marcação representa os possíveis 
correspondências ( matches ) entre uma se- 
quência e outra. 

Qualquer região de similaridade entre as 
duas sequências será evidenciada por uma li- 
nha diagonal de assinalações. Pontos não dis- 
postos na diagonal representam 
correspondências aleatórias que não estão 
relacionadas com a similaridade entre as se- 
quências. A detecção de regiões de alta simi- 
laridade pode ser beneficiada, em alguns 
casos, através da comparação de dois ou 
mais caracteres ao mesmo tempo. Nestes 
casos, é necessário escolher um número de 
caracteres como janela. 

Além disso, arbitrariamente, um número 
de correspondências deve ser escolhido. Por 
exemplo, para comparar duas sequências 
com 1ÜÜ.ÜÜÜ caracteres, podemos escolher 
uma janela de 15 caracteres e 10 correspon- 
dências requeridas. 0 algoritmo varrerá a 
matriz de 15 em 15 caracteres e, quando, en- 
tre estes quinze caracteres, existirem 10 for- 
mando correspondências entre as duas 
sequências, o algoritmo inserirá uma marca- 
ção de similaridade. Geralmente, esta varia- 
ção do método é utilizada para a comparação 
de longas sequências de DNA. 

Por último, outro algoritmo bastante 
comum no alinhamento par-a-par de dados 
biológicos é o k-tupie, ou método de palavras. 
Este método é geralmente mais rápido que o 
método de programação dinâmica, embora 
não garanta o melhor alinhamento como re- 
sultado. Este tipo de algoritmo é especial- 
mente útil em casos onde se busca 
similaridade de uma única sequência contra 
um grande conjunto de dados. Para isso, o al- 
goritmo dividirá uma sequência alvo em pe- 
quenas sequências, geralmente conjuntos de 
dois a seis caracteres, chamados de palavras. 
Da mesma forma, o conjunto total de se- 
quências do banco de dados terá cada uma 
das sequências subdivida em pequenas pala- 
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vras. As palavras da sequência alvo serão 
comparadas às palavras oriundas do banco 
de dados. Após a busca de identidade, o algo- 
ritmo alinhará as duas sequências completas 
(sequência oriunda do banco de dados que te- 
ve uma palavra similar com umas das pala- 
vras da sequência alvo e a própria sequência 
alvo) a partir das palavras similares e esten- 
derá a análise de similaridade para as regiões 
vizinhas, antes e depois da palavra similar. 
Através de uma matriz de penalidade, o algo- 
ritmo calculará o alinhamento que teve o 
maior valor de pontuação. É comum, para es- 
ta segunda etapa dos cálculos de similarida- 
de, a utilização de algoritmos de programação 
dinâmica. 

3.5. Alinhamento múltiplo global 

Da mesma forma que no caso dos ali- 
nhamentos simples, o método de programa- 
ção dinâmica é usualmente utilizado para lidar 
com múltiplas sequências. Nestes casos, uti- 
liza-se o conceito de soma ponderada dos pa- 
res ( weighted sum of pairs, W5P). Através 
deste conceito, para qualquer alinhamento 
múltiplo de sequências, uma pontuação para 
cada par possível formado por estas sequên- 
cias será calculada (Figura 8-3) e, ao final, os 
valores de similaridade para cada um dos pa- 
res serão somados. Apesar de conceitual- 
mente simples, este método exige grande 
capacidade computacional e, dependendo da 
quantidade de sequências envolvidas, pode 
requerer longo tempo para processamento. 

Métodos alternativos tiveram que ser 
criados para acelerar os cálculos para alinha- 
mento de sequências, incluindo-se: alinha- 
mento progressivo, pontuação baseada em 
consistência (consistency-based scoring), 
métodos iterativos de refinamento, algorit- 
mos genéticos e modelos ocultos de Markov. 
Cabe ressaltar que todos estes métodos rea- 
lizam buscas aproximadas pelo resultado óti- 
mo e, portanto, se tratam de métodos 
heurísticos. 


Alinhamento progressivo 

Leva em consideração a relação evolu- 
tiva entre as sequências. Os algoritmos utili- 
zam as relações filogenáticas para gerar o 
resultado de alinhamento. Inicialmente, são 
realizados alinhamentos par-a-par de todos 
os possíveis pares. Nesta comparação, verifi- 
ca-se apenas o número de caracteres dife- 
rentes entre as duas sequências (verificar o 
conceito de distância evolutiva observada no 
capítulo 6). Estas distâncias serão utilizadas 
para a construção de uma filogenia (geral- 
mente através do método de neighbor- 
joining). A partir desta filogenia o alinhamento 
será construído progressivamente, depen- 
dendo da relação entre as sequências sendo, 
por isso, chamado de alinhamento progressi- 
vo. 

Tomemos como exemplo um ramo de 
uma dada filogenia que inclui duas sequências. 
O algoritmo construirá um alinhamento atra- 
vés de programação dinâmica para estas du- 
as sequências. A partir deste primeiro 
alinhamento, estas duas sequências serão 
agora tratadas como uma, e serão alinhadas 
à próxima sequência filogeneticamente rela- 
cionada. Devemos notar que todo o restante 
das sequências será alinhado baseando-se 
neste primeiro par. É um método rápido e 
amplamente utilizado para alinhar um grande 
número de sequências. Atualmente, os pro- 
gramas mais populares de alinhamento pro- 
gressivo são o CLUSTALW e CLUSTALX. 

Pontuação baseada em consistência 

Baseado no algoritmo de alinhamento 
progressivo, não leva em consideração ape- 
nas o primeiro par de sequências alinhadas. 
Durante a realização do cálculo, realiza outros 
alinhamentos par-a-par para aperfeiçoar as 
comparações entre as sequências. 0 principal 
programa a utilizar este algoritmo é o T- 
COFFEE. 
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Métodos iterativos de refinamento 

Funcionam como os algoritmos de ali- 
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nhamento progressivo, mas os grupos de se- 
quências são realinhados constantemente ao 
Longo das análises, garantindo que o alinha- 
mento inicial não defina o resultado final. 0 
principal programa a utilizar este algoritmo 
como base para os cálculos de alinhamento é 
o MUSCLE. 

Algoritmos genéticos 

Estes algoritmos buscam simular o 
processo evolutivo no conjunto de sequências 
a serem alinhadas, aplicando conceito de se- 
leção e recombinação. É ainda um método 
lento e, devido à aleatoriedade do processo, 
não garante o mesmo resultado para dife- 
rentes alinhamentos do mesmo conjunto de 
dados. 0 programa SAGA é um dos poucos a 
implementar algoritmos genéticos. 

Modelos ocultos de Morkov 

Modelo baseado em probabilidades es- 
tatísticas, destacando os eventos de substi- 
tuição e inserção ou deleção de caracteres. 

3 . 6 . Alinhamento múltiplo local 

Na busca por regiões localizadas de si- 
milaridade entre diferentes sequências, são 
aplicados principalmente os seguintes algo- 
ritmos: análise de perfis, análise de blocos e 
análise de motivos. 

Análise de perfis 

A partir de um alinhamento primário de 
todas as sequências envolvidas na análise e 
utilizando uma matriz de custo padrão, o al- 
goritmo seleciona as regiões altamente con- 
servadas e produz uma nova matriz de 
pontuação (matriz de custo), chamada de 
perfil. A construção deste perfil pode ser re- 
alizada através de dois métodos diferentes 
(método das médias e método evolutivo) e 
inclui pontuações para matche s, mismatches 
e lacunas. Assim que produzido, este perfil 
pode ser utilizado para alinhar sequências en- 
tre si utilizando as pontuações calculadas pa- 


ra avaliar a probabilidade em cada posição ou 
para buscar sequências com o mesmo padrão 
em um banco de dados. 

A desvantagem do método de perfis 
está na especificidade da nova matriz de custo 
obtida. Se o alinhamento inicial contiver pou- 
cas sequências, pode não representar ade- 
quadamente a variabilidade de caracteres em 
uma determinada posição e prejudicar o al- 
goritmo na busca por similaridade com outras 
sequências. Este método é principalmente 
utilizado para alinhamentos de aminoácidos. 

Análise de blocos 

Assim como a análise de perfis este 
método requer, inicialmente, a seleção da re- 
gião de maior similaridade de um alinhamento 
múltiplo. Estas regiões podem ser chamadas 
de blocos e diferem dos perfis por não aco- 
modarem indels, que serão automaticamente 
eliminados das análises. Este método é tam- 
bém capaz de realizar a busca de pequenas 
regiões de similaridade entre sequências, de 
maneira semelhante ao método de palavras. 

Análise de motivos 

Este método é especialmente utilizado 
na busca por motivos proteicos em sequênci- 
as de aminoácidos. 0 método foi desenvolvido 
através do alinhamento de milhares de se- 
quências de aminoácidos extraídas de gran- 
des bancos de dados de proteínas. A partir 
deste alinhamento, analisou-se cada uma das 
colunas para buscar um padrão de substitui- 
ção entre os aminoácidos. Estes padrões de 
mudança refletem uma maior probabilidade 
de substituição. Para proceder ao alinhamen- 
to, os algoritmos que aplicam a análise de 
motivos iniciam o processo por uma análise 
de blocos. As regiões de alta similaridade são 
então analisadas para buscar os padrões de 
substituição descritos inicialmente. 0 conjunto 
de padrões resultante da análise das colunas 
é chamado de motivo. A probabilidade de 
existência de cada motivo em uma sequência 
de proteína é estimada através do banco de 
dados do SwissProt. 
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3.7. BLAST 

O BLAST, ou Ferramenta de Busca por 
Alinhamento Local Básico ( Basic Locoi 
ALignment Seorch Tool) é um algoritmo capaz 
de realizar buscas baseadas em alinhamento 
que, apesar de não serem exatas, são confiá- 
veis e muito rápidas, sendo estas suas vanta- 
gens em relação a outros métodos. Ele é um 
dos programas mais usados em Bioinformá- 
tica devido à velocidade em que consegue 
responder a um problema fundamental em 
biologia celular e molecular: comparar uma 
sequência desconhecida com aquelas deposi- 
tadas em bancos de dados. 

0 algoritmo do BLAST aumenta a velo- 
cidade do alinhamento de sequências ao bus- 
car primeiro por palavras comuns (ou 
k-tupie s) na sequência de busca e em cada 
sequência do banco de dados. Em vez de bus- 
car todas as palavras de mesmo tamanho, o 
BLAST limita a busca àquelas palavras que 
são mais significantes. 0 tamanho de palavra 
é fixado em 3 caracteres para sequências de 
aminoácidos e em 11 para sequências de nu- 
cleotídeos (3 se as sequências forem traduzi- 
das nos 6 quadros de leitura possíveis). Esses 
são os tamanhos mínimos para obter uma 
pontuação por palavras que seja alta o sufici- 
ente para ser significativa sem perder frag- 
mentos menores, mas importantes, de 
sequência. 

Funcionamento do algoritmo BLAST 

Para funcionar, o BLAST necessita de 
uma sequência de busca (query) e de sequên- 
cias alvo. Comumente, as sequências alvos 
são o conjunto de sequências depositadas em 
um banco de dados, local ou na web. Um dos 
conceitos principais empregados pelo BLAST 
é de que alinhamentos estatisticamente signi- 
ficantes contêm pares de segmentos de alta 
pontuação (HSP, high-scoring segment pairs), 
e são esses HSPs que o algoritmo busca entre 
a sequência sendo analisada e aquelas depo- 
sitadas no banco de dados. 

As principais etapas do funcionamento 
do algoritmo BLAST, para uma sequência 


proteica genérica incluem: 

i. Remoção de repetições ou regiões de 
baixa complexidade na sequência de 
busca. 

Uma região de baixa complexidade é definida como 
uma região composta por poucos tipos de elementos. 
Essas regiões normalmente apresentam pontuações 
altas que podem confundir o programa em sua busca 
por sequências com similaridade significativa. Por esse 
motivo, tais regiões são identificadas antes da próxima 
etapa e ignoradas. 

ii. Estabelecer uma lista de palavras 
com ^-letras. 

Sendo este um caso envolvendo sequências protei- 
cas, k = 3, ou seja, cada palavra tem tamanho 3. Como 
mostrado na Figura 10-3, são listadas palavras com 
comprimento de 3 caracteres, sequencialmente, até 
que a última letra da sequência de busca seja incluída. 


PQGEFG 


PQG 

QGE 

GEF 

EFG 


Sequência de busca 

palavra 1 
palavra 2 
palavra 3 
palavra 4 


Figura 10-3: Exemplo de lista de palavras 
geradas pelo BLAST. 


Ui. Listar as possíveis palavras corres- 
pondentes. 

Diferente de outros algoritmos (como o FASTA), o 
BLAST considera apenas as palavras de maior pontua- 
ção. As pontuações são estabelecidas por comparação 
das palavras listadas na etapa ii com todas as outras 
palavras de 3 letras. Uma matriz de substituição 
(BL0SUM62) é usada para pontuar as comparações 
entre pares de resíduos. Existem 20 3 possíveis pontua- 
ções de correspondência considerando uma palavra de 
3 letras. Como exemplo, a comparação das palavras 
PQG e PEG tem pontuação de 15, enquanto a compara- 
ção de PQG com POA pontua como 12. A seguir, um li- 
miar T para pontuação de palavras vizinhas é usado 
para reduzir o número de possíveis palavras corres- 
pondentes. As palavras cujas pontuações forem maio- 
res que o limiar T serão mantidas na lista de possíveis 
correspondências, enquanto aquelas cujas pontuações 
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forem menores serão descartadas. Considerando o ex- 
emplo anterior, se T= 13, PEG será mantida, enquanto 
POA será abandonada. 

iv. Organizar as palavras de alta pontu- 
ação. 

As palavras remanescentes, com alta pontuação, 
são organizadas em uma árvore de busca. Isso permite 
que o programa compare as palavras com as sequên- 
cias do banco de dados de maneira rápida. 

v. Repetir os passos Ui e iv para cada 
palavra de ^-letras originadas da se- 
quência de busca. 

vi. Varrer as sequências do banco de 
dados em busca de correspondências 
com as palavras remanescentes. 

0 BLAST realiza uma varredura das sequências de- 
positadas no banco de dados, buscando pelas palavras 
de alta pontuação (como PEG, no exemplo anterior). Se 
uma correspondência exata for encontrada, ela será 
empregada para nuclear um possível alinhamento sem 
lacunas ( gaps ) entre a sequência de busca e a deposi- 
tada no banco de dados. 

vii. Estender as correspondências exa- 
tas entre pares de segmentos de alta 
pontuação. 

A versão original do BLAST estende o alinhamento 
para a esquerda e para a direita de onde ocorre uma 
correspondência exata. A extensão é parada apenas 
quando a pontuação acumulada pelo HSP começa a di- 
minuir (um exemplo pode ser visto na Figura 11-3). 


RPPQGLF 

DPPEGW 


sequência de busca 
sequência do banco de dados 


► correspondência encontrada 


-277 2 6 1 -1 

I 

► HSP 

7+7+2+6+1=23 pontuação ótima acumulada 


Figura 11-3: Exemplo do esquema de 

pontuação empregado pelo BLAST. 


Para acelerar o processo, a versão atual do BLAST 
(BLAST2 ou Gapped BLAST) emprega um limiar mais 
baixo para a vizinhança das palavras, mantendo a sen- 
sibilidade na detecção de similaridade de sequências. 
Assim, a lista de possíveis correspondências obtidas na 
etapa Ui é maior. Como observado na Figura 12-3, as 


regiões de correspondência exata com distância menor 
que A na mesma diagonal serão unidas como uma nova 
região, mais extensa. Posteriormente, essas regiões 
são estendidas da mesma maneira como ocorre no 
BLAST original, com os HSPs sendo pontuados com 
base em uma matriz de substituição. 



Figura 12-3: Esquema da extensão de zonas 
de correspondência entre sequências 
identificadas pelo BLAST. 

viii. Listar todos os HSPs do banco de 
dados cuja pontuação seja alta o sufici- 
ente. 

Nessa etapa são listados todos os pares de seg- 
mentos cuja pontuação seja maior que um determina- 
do ponto de corte S. A distribuição de pontuações 
obtidas por alinhamento de sequências aleatórias é a 
base para determinação desse ponto de corte. 

ix. Avaliar a significância da pontuação 
dos HSPs. 

A avaliação estatística de cada par de segmentos de 
alta pontuação explora a Distribuição de Valores Extre- 
mos de Gumbel. 0 valor de confiança estatística e 
apresentado pelo BLAST, chamado de valor de expec- 
tativa, reflete o número de vezes que uma sequência 
não relacionada presente no banco de dados pode ob- 
ter, ao acaso, um valor maior que S (ponto de corte). 
Ou seja, o e reflete o número de falsos positivos entre 
os resultados de similaridade encontrados. Para p < 0,1, 
o valor e se aproxima da distribuição de Poisson (ver 
item 4.8). 

x. Transformar duas ou mais regiões de 
HSP em um alinhamento maior. 

Em alguns casos, duas ou mais regiões de H5P po- 
dem ser combinadas em um trecho maior de alinha- 
mento (uma evidência adicional da relação entre a 
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sequência de busca e a encontrada no banco de dados). 
Existem dois métodos para comparar a significância 
das novas regiões ligadas. Se, por exemplo, forem en- 
contradas duas regiões de HSP combinadas com pares 
de pontuação (67 e 41) e (53 e 45), cada método se 
comportará de maneira diferente. 0 método de Poisson 
conferirá maior significância ao conjunto com valor mí- 
nimo maior (45 em vez de 41). 0 método de soma dos 
pontos, ao contrário, dará preferência ao primeiro con- 
junto, pois 108 (67+41) é maior que 98 (53+45). 0 
BLA5T original usa o primeiro método, enquanto o 
BLA5T2 emprega o segundo. 

xi. Exibir os alinhamentos locais entre a 
sequência de busca e cada uma das 
correspondências no banco de dados. 

0 BLAST original produz apenas alinhamentos sem 
lacunas (gops), incluindo cada um dos HSPs encontra- 
dos inicialmente, mesmo que mais de uma região de 
correspondência seja encontrada numa mesma se- 
quência do banco de dados. 0 BLA5T2 produz um único 
alinhamento com lacunas, podendo incluir todas as re- 
giões de H5P encontradas. É importante destacar que o 
cálculo da pontuação e do valor e leva em conta as pe- 
nalidades por abertura de lacunas no alinhamento. 

xii. Registrar as correspondências en- 
contradas. 

Quando o valor e dos alinhamentos encontrados 
entre a sequência de busca e as do banco de dados sa- 
tisfazem o ponto de corte estabelecido pelo usuário, a 
correspondência é registrada. Os resultados da busca 
são apresentados de forma gráfica, seguidos por uma 
lista de correspondências organizada pela pontuação e 
pelo valor e, e finalizam com os alinhamentos. A Figura 
13-3 traz um exemplo de resultado obtido pelo BLAST. 

Diferentes tipos de BLAST 

0 BLAST constitui uma família de pro- 
gramas, que podem ser usados para diferen- 
tes fins, dependendo das necessidades do 
usuário. Esses programas variam quanto ao 
tipo de sequência de busca, o banco de dados 
a ser empregado, e o tipo de comparação a 
ser realizada. As diferentes aplicações dispo- 
níveis pelo BLAST incluem: 

i. blastn: BLAST nucleotídeo-nucleotí- 
deo. Usando uma sequência de DNA co- 
mo entrada, dá como resultado as 
sequências de DNA mais similares pre- 


sentes no banco de dados especificado 
pelo usuário. 

ii. blastp: BLAST proteína-proteína. 
Usando uma sequência proteica como 
entrada, dá como resultado as sequên- 
cias proteicas mais similares presentes 
no banco de dados especificado pelo 
usuário. 

Ui. blastpgp'. BLAST iterativo com espe- 
cificidade de posição (PSI-BLAST). Usado 
para encontrar proteínas distantemente 
relacionadas. Nesse caso, uma lista de 
proteínas proximamente relacionadas é 
criada. Essa lista serve de base para a 
criação de uma sequência média, que 
resume as características importantes 
do conjunto de sequências. A sequência 
média é usada para buscar sequências 
similares no banco de dados e um grupo 
maior de proteínas é encontrado. 0 gru- 
po maior á usado na construção de uma 
nova sequência média e o processo é 
repetido. Ao incluir proteínas relaciona- 
das na busca, o PSI-BLAST é muito mais 
sensível na percepção de relações evo- 
lutivas distantes que o BLAST proteína- 
proteína tradicional. 

iv. blastx'. tradução de nucleotídeos em 
6 quadros-proteína. Compara os produ- 
tos de tradução conceituai nos 6 qua- 
dros de leitura de uma sequência de 
nucleotídeos contra o banco de dados 
de sequências proteicas. 

v. tblastx: tradução de nucleotídeos em 
6 quadros-tradução de nucleotídeos em 
6 quadros. 0 mais lento dos programas 
BLAST, tem por objetivo encontrar rela- 
ções distantes entre sequências de nu- 
cleotídeos. Ele traduz a sequência de 
nucleotídeo nos 6 possíveis quadros de 
leitura e compara os resultados contra a 
tradução nos 6 quadros de leitura das 
sequências de nucleotídeos depositadas 
no banco de dados. 

vi. tblastn : proteína-tradução de nucle- 
otídeos em 6 quadros. Compara uma 
sequência de proteína contra a tradução 
nos 6 quadros de leitura das sequências 
de nucleotídeos depositadas no banco 
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RecName Full=Urease subunit alpha; AltName Full=Urea amidohydrolase subunit alpha 

Sequence 10: SP1P42822 1IURE23 HELHE Length: 234 Number of Matche*: 1 /TT 

> §« , 1 m Qfg.tjügís) >3 

Range 1: 1 to 234 G«riP«Pt Gfêphio ▼ Mext Malch £ t>r*viou» M»Uh 

Sc ore Expect Hethod Identities Positives Gap* 

475b*s(1222) 3e-168 Compositional matrix adjust 234/234(100%) 234/234(100%) 0/234(0%) 

Query 1 MXLT PKELDKI2ÍLHYÂGEIJtf(QRiCAKGIKLNYTEAVALI SAHVKEEARAGKKSVADLMQE €0 

HKLTPKEI^maJiYAGEIJd(QWaU(GIKI2ÍYTEAVaLISAHVHEEARAGKKSVADLMQE 
Sb]ct 1 MXLT PKELDKLMLH YAGELAKQRKAKG I KLKYTEAVAL I SAHVMEEARAGKKSVADLMQE 60 

Query 61 GRTLLKADDVMPGVAHMI HEVG IEAGFPDGTKLVT I Hl PVEAGS DKLAPGEVI LKNEDI T 120 
GRTLLKftDDVMPGVAHMIHEVGIEAGFPDGIKLVTIHIPVEAGSDKIAPGEVILKlíEDIT 
Sbjct 61 GRTLLXADDVHPGVAHMIHEVGIEAGFPOGIKLVTIHTPVEAGSDXLAPGEVILKKEDIT 120 

Query 121 IiiAGKHAVQIj(VKNKGDRPVQVGSHFHFFFi/NKIXDFDR£KAYGKRLDIASGTAVRFEPG 180 
IiJAGKHAVQLKVKNKGDRPVQVGS H FH FFEVNKLLD FDREKAY GKRLD I AS GT AVRFE PG 
SbjCt 121 IilAGKHAVQLKVKNKGDRPVQVGSHFHFFEVNKLLDFDREKAYGKRLDIASGTAVRFEPG 180 

Query 181 EEKIVELIDIGGNKRIYGFNALVDRQADHDGKKLALKRAKEKHFGTINCGCDNK 234 
EEKIVELIDIGGNKRIYGFHALVDRQADHDGKKLALKRAKEKHFGTINCGCDNK 
Sb]Ct 181 EEKTVELIDIGGNKRIYGFKALVDRQADHDGKXLALKRAKEKHFGTINCGCDNX 234 

Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informações 
são apresentadas: 1 ) representação gráfica de domínios conservados identificados na 

sequência; 2) representação gráfica de matche s, indicando qualidade do alinhamento e 
cobertura das sequências identificadas; 3) informações estatísticas dos resultados encontrados, 
incluindo identidade e valor e\ 4) alinhamento de cada sequência encontrada com a sequência de 
busca [query). 


T Next A Descnptions 


Related Information 


de dados. 

vii. megablasf. para empregar um gran- 
de número de sequências de busca. 
Quando se compara um grande número 
de sequências de busca (especialmente 
no BLAST por linha de comando), o 
megablast é muito mais rápido que o 
BLA5T executado por várias vezes se- 
guidas. Ele agrupa muitas sequências de 
busca, formando uma grande sequência, 
antes de realizar a busca no banco de 


dados. Os resultados são pós-analisa- 
dos em busca de alinhamentos individu- 
ais. 

3.8. Significância estatística 

Em determinados casos, especialmente 
para buscar evidência de homologia entre se- 
quências, o alinhamento é analisado sob o 
ponto de vista estatístico. Nessa óptica, po- 
demos calcular quão bom pode ser um ali- 
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nhamento simplesmente levando em consi- 
deração as razões de chance de alinhamento 
entre nucleotídeos quaisquer. Para isso, se- 
quências de nucleotídeos ou aminoácidos são 
geradas aleatoriamente, alinhadas em con- 
junto e avaliadas, segundo um determinado 
esquema de pontuação. Para alinhamentos 
globais, pouco se sabe a respeito destas dis- 
tribuições randômicas. No entanto, felizmen- 
te, estas técnicas são bem entendidas para 
casos de alinhamentos locais e, atualmente, 
são amplamente utilizadas para a avaliação 
de similaridade, especialmente em bancos de 
dados que comportam grande quantidade de 
sequências. 

Para analisar a probabilidade associada 
a determinado alinhamento é necessário, ini- 
cialmente, gerar um modelo aleatório das se- 
quências em análise. Esses novos 
alinhamentos serão pontuados seguindo um 
determinado esquema de pontuação. Neste 
contexto, será calculada a probabilidade de se 
obter aleatoriamente uma pontuação pelo 
menos igual à pontuação do alinhamento ori- 
ginal. 0 valor associado aos múltiplos testes 
realizados é chamado de valor e ( e-vaiue ). 
Para banco de dados, este valor corresponde 
ao número de distintos alinhamentos, com 
uma pontuação igual ou melhor, que são es- 
perados ocorrer na busca por sequências si- 
milares simplesmente por razões de chance 
(aleatórios). Estes cálculos estatísticos levam 
em consideração a pontuação do alinhamento 
e o tamanho do banco de dados. Quanto me- 
nor o valor e, menor o número de chances de 
uma determinada sequência ser alinhada ale- 
atoriamente com outras e, portanto, mais 
significante é o resultado. Por exemplo, um 
valor e de 1e-3 (IxIO' 3 ou 0,001) significa que 
há a chance de 0,001 de que a sequência alvo 
seja alinhada com uma sequência aleatória do 
banco de dados. Por exemplo, em um banco 
de dados que contém 10.000 sequências, 
neste caso, esperaríamos encontrar até 10 
outras sequências que alinharão significativa- 
mente com a sequência alvo. É importante 
ressaltar que o fato de encontrarmos um va- 
lor e próximo de zero na comparação entre 
duas sequências não necessariamente denota 


a homologia destas sequências, dado que se- 
quências não relacionadas podem conter si- 
milaridades devido à evolução convergente. 

3.9. Alinhamento de 2 estruturas 

0 alinhamento de estruturas é um pro- 
blema matematicamente complexo que só 
pode ser resolvido por algoritmos heurísticos. 
A Figura 14-3 apresenta um exemplo de ali- 
nhamento estrutural simples. Diferentes al- 
goritmos oferecem resultados diferentes 
para o alinhamento, e algumas vezes essas 
diferenças são grandes. Por esse motivo é 
importante testar diferentes programas de 
alinhamento estrutural. Cada um deles tem 
pontos fortes e fracos, que podem ser explo- 
rados a partir da leitura dos artigos que os 
propuseram originalmente. 


hemoglobina mioglobina 

( Homo sopiens) ( Etephos moximu s) 


% * 



alinhamento 

Figura 14-3: Exemplo de alinhamento de duas 
estruturas proteicas, oriundas de diferentes 
organismos: hemoglobina humana e 

mioglobina de elefante-asiático. 

Existem três etapas essenciais para as 
diferentes estratégias de alinhamento estru- 
tural: a representação, a otimização e a pon- 
tuação. A representação se refere às 
maneiras de representar as estruturas de 
uma forma que não seja dependente de coor- 
denadas espaciais e que seja adequada ao ali- 
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nhamento. A otimização Lida com a amostra- 
gem do espaço de possíveis soluções para o 
alinhamento entre as estruturas. A pontuação 
lida com a classificação dos resultados obti- 
dos e com sua significância estatística. A se- 
guir apresentamos as características 
específicas de alguns dos métodos mais utili- 
zados para o alinhamento de duas estruturas. 

DALI: emprega matrizes de distâncias para repre- 
sentar as estruturas, transformando as estruturas 3 D 
em conjuntos 2D de distâncias entre Ca. Se imaginar- 
mos a sobreposição das matrizes, as regiões de sobre- 
posição na diagonal representam similaridades na 
estrutura 2 ária (similaridades no esqueleto polipeptídi- 
co), e similaridades fora da diagonal representam simi- 
laridades na estrutura 3 ária . As matrizes são então 
divididas em matrizes menores, de tamanho fixo, com 
base nas similaridades encontradas. Cada submatriz é 
unida a outras que sejam adjacentes para obter a ma- 
triz de sobreposição com maior abrangência. A signifi- 
cância estatística do alinhamento é calculada com base 
na distribuição encontrada em uma comparação de 
centenas de estruturas de baixa identidade. A pontua- 
ção á apresentada como número de desvios-padrão 
em relação a tal distribuição. 

SSAP: cria vetores ligando resíduos a partir dos Cj3, 
representando a estrutura em duas dimensões, consi- 
derando posição e direção. Um algoritmo de progra- 
mação dinâmica identifica similaridades entre as 
matrizes de vetores, gerando uma nova matriz que é 
posteriormente recalculada considerando as diferen- 
ças entre cada posição de similaridade encontrada na 
primeira etapa em relação às outras posições de simi- 
laridade, até que uma matriz ótima seja atingida. A 
pontuação do SSAP não é estatística, mas foi calibrada 
em relação ao banco de dados CATH. Assim, uma pon- 
tuação maior que 70 indica similaridade entre as estru- 
turas comparadas. 

VA5T: cria vetores a partir de elementos de estru- 
tura 2 aria cujo tipo, direção e conexão estão relaciona- 
dos com a topologia da proteína. Esses elementos 
(fragmentos) de estrutura 2 aria são alinhados e compa- 
rados com alinhamentos gerados aleatoriamente. Ali- 
nhamentos com boa pontuação são agrupados e 
depois realinhados usando um procedimento de otimi- 
zação por Monte Cario. A significância estatística é da- 
da pelo valor p (assim como ocorre no BLAST). 0 valor 
p é proporcional à probabilidade de se obter o alinha- 
mento ao acaso. 


SARF2: transforma as coordenadas em um conjun- 
to de elementos de estrutura 2 aria . Posteriormente, 
avalia pares desses elementos comparando o ângulo 
entre eles, a menor distância entre seus eixos e as dis- 
tâncias mínimas e máximas entre cada elemento e a li- 
nha média. Um otimizador baseado em grafos é 
empregado para obter o maior número de conjuntos 
mutuamente compatíveis, e então o alinhamento final é 
calculado por adição de mais resíduos até que um valor 
mínimo de RMSD, definido pelo usuário, seja atingido. A 
pontuação final do alinhamento é calculada como fun- 
ção do RMSD e do número de Ca pareados entre as es- 
truturas. A significância estatística é obtida por 
comparação à distribuição de pontuações obtidas pelo 
alinhamento da proteína leghemoglobina a centenas de 
estruturas não redundantes. 

CE: representa as proteínas como conjuntos de dis- 
tâncias entre Ca de oito resíduos consecutivos na es- 
trutura. Primeiramente, são identificados todos os 
pares de octâmeros compatíveis entre as estruturas. 
Posteriormente, um algoritmo de extensão combina- 
tória identifica e combina os pares mais similares entre 
as estruturas, adicionando mais pares a cada etapa do 
cálculo até a obtenção do melhor alinhamento. A signi- 
ficância estatística é dada por comparação às pontua- 
ções obtidas em um conjunto de alinhamentos entre 
estruturas com menos de 25% de identidade de se- 
quência. 

MAMMOTH: transforma as coordenadas da proteína 
em um conjunto de vetores unitários a partir dos Ca de 
heptâmeros consecutivos. A similaridade entre heptâ- 
meros é calculada pela sobreposição de seus vetores, 
a matriz de similaridade ótima á identificada e então o 
melhor alinhamento local entre estruturas é identifica- 
do dentro de um valor de RM5D pré-definido. A signifi- 
cância estatística é dada pelo valor p, baseado na 
comparação com a pontuação de alinhamentos obtidos 
aleatoriamente. 

SALIGN: representa as proteínas por um conjunto 
de propriedades ou características calculadas a partir 
da sequência e da estrutura ou definidas arbitraria- 
mente pelo usuário. Tais propriedades incluem tipo de 
resíduo, distância entre resíduos, acessibilidade da ca- 
deia lateral, estrutura 2 aria , conformação local da es- 
trutura e característica a ser definida pelo usuário. 0 
programa calcula uma matriz de dissimilaridade entre 
propriedades equivalentes, e a pontuação da dissimila- 
ridade é calculada pela soma das matrizes de cada ca- 
racterística. A melhor sobreposição de matrizes é 


58 


3. Alinhamentos 



obtida por um algoritmo baseado em programação di- 
nâmica. A significância estatística não é calculada pelo 
SALIGN e o usuário obtém apenas os valores da pontu- 
ação de dissimilaridade. 0 programa fornece, entre- 
tanto, um valor adicional de qualidade, apresentado 
como porcentagem de Ca cuja distância á menor que 
3,5 Ã entre os pares de estruturas alinhadas. 


3.10. Alinhamento de >2 estruturas 

A maior parte dos métodos disponíveis 
para o alinhamento múltiplo de estruturas 
inicia-se estabelecendo todos os alinhamentos 
entre pares de estruturas e, então, emprega- 
os para estabelecer um alinhamento consen- 
so entre todas as estruturas. A Figura 15-3 
apresenta um exemplo de alinhamento estru- 
tural múltiplo. Os métodos para obter o ali- 
nhamento consenso variam entre os 
programas de alinhamento. A seguir apre- 
sentamos as características específicas de 
alguns dos métodos mais utilizados para o 
alinhamento de estruturas múltiplo. 



Drosophilo melonogoster Kluyveromyce s lactis 


Figura 15-3: Exemplo de alinhamento de 
múltiplas estruturas proteicas, oriundas de 
diferentes organismos (histonas H3 de 
levedura, mosca-da-fruta, homem, frango, 
sapo-de-garras). 


CE-MC: realiza o refinamento de um conjunto de ali- 
nhamentos de pares de estruturas empregando uma 
técnica de otimização de Monte Cario. 0 algoritmo mo- 
difica o alinhamento múltiplo aleatoriamente, e as mo- 
dificações são aceitas se houver melhoria na 
pontuação do alinhamento. O processo encerra quando 
o alinhamento múltiplo não puder mais ser melhorado 
por modificações aleatórias. 

MAMMOTH-Mult: essa extensão do MAMMOTH gera 
inicialmente todos os alinhamentos de estruturas aos 
pares. Um procedimento de organização por médias é 
empregado para agrupar as estruturas com base em 
suas similaridades aos pares, gerando uma árvore. O 
alinhamento múltiplo é gerado por reorganização des- 
sa árvore, onde ramos similares vão sendo agrupados 
aos pares, iterativamente. 

SALIGN: pode realizar alinhamentos múltiplos de 
duas maneiras, baseado em uma árvore ou por alinha- 
mento progressivo. 0 primeiro caso é muito similar ao 
MAMMOTH-Mult. No alinhamento progressivo, as es- 
truturas são alinhadas na ordem em que são forneci- 
das para o programa. A vantagem desse método é o 
de seu custo computacional ser menor que o do méto- 
do baseado em uma árvore. 

3.11. Alinhamento flexível 

O alinhamento de estruturas conside- 
rando sua flexibilidade está se tornando cada 
vez mais importante devido à melhor com- 
preensão do enovelamento proteico. Cada vez 
mais, percebe-se que não existem enovela- 
mentos estanques, mas sim um gradiente 
densamente populado por variantes confor- 
macionais. Desta forma, torna-se mais difícil 
definir domínios proteicos, sendo mais ade- 
quado descrever as estruturas como conjun- 
tos de estruturas supra-secundárias. Com 
base nessa proposta, a diferença entre prote- 
ínas relacionadas reside na orientação relativa 
desses subdomínios. A Figura 16-3 demonstra 
as diferenças que podem ser observadas ao 
alinhar um par de estruturas de maneira rígi- 
da ou flexível. A seguir apresentamos as ca- 
racterísticas específicas de alguns dos 
métodos mais utilizados para este tipo de ali- 
nhamento de estruturas. 

FATCAT: o algoritmo adiciona “torções” entre pares 
de fragmentos proteicos alinhados, que são tratados 
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alinhamento rígido alinhamento flexível 

Figura 16-3: Comparação entre alinhamento 
estrutural rígido e flexível. A estrutura da 
proteína HasA (um captador bacteriano de 
grupamentos heme) foi obtida para suas 
formas intra- e extra-celular. Observe que o 
alinhamento rígido identifica similaridade 
parcial entre as estruturas, enquanto o 
alinhamento flexível detecta o rearranjo 
espacial de parte da proteína, evidenciando 
sua identidade. 

como corpos rígidos. De maneira geral, o programa 
permite a inclusão dessas torções quando elas diminu- 
em o valor final do RMSD, refletindo em um melhor 
alinhamento estrutural. 0 alinhamento final á obtido 
por programação dinâmica e se baseia na matriz de si- 
milaridade entre os fragmentos pareados, obtidos na 
primeira etapa do cálculo. 

FLEXPROT: mantém uma das proteínas rígida, en- 
quanto a outra pode sofrer alterações em busca de 
maior similaridade estrutural. As regiões potencial- 
mente flexíveis da proteína são detectadas automati- 
camente e empregadas nas alterações 
conformacionais. 

ALADYN: alinha pares de estruturas com base em 
sua dinâmica interna e similaridade entre seus movi- 
mentos de grande escala. 0 posicionamento ótimo en- 
tre as proteínas á encontrado ao maximizar as 
similaridades entre os padrões de flutuação estrutural, 
que são calculados pelo modelo de redes elásticas. 

POSA: uma variante do FATCAT para o alinhamento 
múltiplo flexível de estruturas. Emprega uma metodo- 
logia combinada, introduzindo grafos de ordem parcial 
para visualizar e agrupar regiões similares entre as es- 
truturas. 


3.12. Conceitos-chave 

Algoritmo: sequência lógica de instruções ne- 
cessárias para executar uma tarefa. 

Alinhamento: método de organização de se- 
quências ou estruturas biológicas para 
evidenciar regiões similares e dissimilares. 
Estes métodos estão geralmente atrelados 
a inferências funcionais ou evolutivas. 

Alinhamento Múltiplo: alinhamento que envolve 
mais de duas sequências ou estruturas 

Alinhamento Simples: alinhamento que envolve 
apenas duas sequências ou estruturas. 

BLAST: Basic Local Alignment Search Tool (Fer- 
ramenta de Busca por Alinhamento Local 
Básico), empregado para buscar sequên- 
cias em bancos de dados com base em 
sua similaridade. 

Homologia: é um termo essencialmente qualita- 
tivo que denota uma ancestralidade co- 
mum de determinada sequência. 

HSP: pares de segmentos de alta pontuação 
( high-scoring segment pairs), zonas de 
similaridade entre sequências identificadas 
pelo BLAST. 

Identidade: Porcentagem de caracteres similares 
entre duas sequências (excluindo-se as 
lacunas). 

Indels: identifica inserções e deleções de carac- 
teres ao longo do processo evolutivo. 

Lacunas: regiões identificadas por hifens que 
representam a inserção/deleção de carac- 
teres ao longo do processo evolutivo. 

Matches : regiões que apresentam caracteres 
idênticos entre diferentes sequências. 

Mismatches : regiões que apresentam caracteres 
não idênticos entre diferentes sequências. 
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Penalidades por lacuna (PL): conjunto de parâ- 
metros necessários para atribuir a pontu- 
ação para uma lacuna em um sistema de 
alinhamento por pontuação. 

RMSD: desvio médio quadrático. 

Tradução: tradução (in silico ) de uma sequência 
de mRNA em sua possível sequência pro- 
teica correspondente 
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Representação da montagem de genomas. 

4.1. Introdução 

4.2. Montagem de genomas 

4.3. Montagem de transcriptomas 

4.4. Identificação/anotação gênica 

4.5. Identificação/anotação RNAnc 

4.6. Conceitos-chave 


4.1. Introdução 

A análise in silico das sequências nucle- 
otídicas de cromossomo(s) de um dado orga- 
nismo, ou simplesmente genoma, constitui 
uma da mais importantes aplicações da bioin- 
formática. Tem como objetivo desenvolver e 
utilizar ferramentas para identificar e carac- 
terizar genes, elementos genéticos móveis e 
outros elementos presentes em um determi- 
nado genoma, assim como fazer intercorre- 
lações entre diferentes genomas com o 
intuito de buscar aspectos evolutivos comuns. 

ü primeiro organismo a ter a sequência 
de nucleotídeos de seu genoma determinado 
foi a bactéria Gram negativa HaemophiLus 
influenzae, em um projeto liderado por J. 
Craig Venter. Desde 1995, ano de publicação 
desta análise genômica, as sequências de mi- 
lhares de genomas de outros organismos já 
foram determinadas e analisadas, não apenas 
de espécies, mas também de variedades de 
espécies, raças e linhagens, entre outros. 

Com a grande disseminação de estraté- 
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gias de sequenciamento cada vez menos one- 
rosas, muito tem se investido na geração de 
algoritmos e programas para analisar as se- 
quências genômicas geradas. Previamente às 
análises do genoma de H. influenzoe, progra- 
mas para montagem de genomas já existiam, 
tendo sido desenvolvidos para análise de vo- 
lumes de sequências relativamente pequenos, 
como os dos fagos X e CMV, com tamanhos 
de aproximadamente 48.ÜÜÜ pares de bases 
(pb) e 229. üüü pb, respectivamente. Para 
genomas maiores, novos programas tiveram 
que ser desenvolvidos em virtude da maior 
complexidade e quantidade das sequências 
analisadas. Neste capítulo, serão abordados 
os conceitos básicos e as principais ferra- 
mentas para montagem e anotação de geno- 
mas, assim como alguns programas para a 
sua análise. 

4.2. Montagem de genomas 

Nos primeiros anos da era genômica, o 
sequenciamento de genomas era baseado na 
metodologia de Sanger, ou método dideóxi. 
Para obtenção da sequência dos genomas, os 
fragmentos de DNA gerados após fragmen- 
tação química, física ou enzimática eram sub- 
clonados em vetores plasmidiais. Esta estra- 
tégia, denominada sequenciamento shotgun, é 
baseada na fragmentação aleatória dos cro- 
mossomos em fragmentos de DNA com ta- 
manho relativamente pequeno. Estes 
fragmentos, cujo tamanho geralmente varia- 
va de 2. üüü a 5.000 pb, eram submetidos ao 
sequenciamento. As sequências obtidas a 
partir de cada clone (chamadas de reods), 
com tamanho médio de 600 a 800 pb, eram 
submetidos a um processamento para retira- 
da de sequências de baixa qualidade e, então, 
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utilizadas na montagem de contigs e genomas 
(ver abaixo). 

Com o advento das metodologias deno- 
minadas next-generation sequencing - NGS 
(pirossequenciamento, lllumina, SOLiD, dentre 
outros), também ocorre fragmentação alea- 
tória do DNA genômico, mas geralmente não 
são necessários os passos de clonagem. 
Comparativamente, estes novos métodos 
permitem a obtenção de reads de maneira 
muito mais rápida. Entretanto, o tamanho dos 
reads é menor, variando de algumas dezenas 
a poucas centenas de pares de base, depen- 
dendo da metodologia. Assim como no se- 
quenciamento por Sanger, os reads obtidos 
passam por um controle de qualidade e então 
podem ser utilizados na montagem de geno- 
mas. 

Independente da metodologia de se- 
quenciamento utilizada, como resultado se 
tem uma grande lista de sequências nucleotí- 
dicas - os reads - de tamanhos que podem 
variar de 50 a 800 pb. Para montagem das 
sequências genômicas a partir destes reads, 
diferentes estratégias são utilizadas, depen- 
dendo da metodologia empregada. Para o se- 
quenciamento convencional (Sanger), cada 
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um destes reads é alinhado entre si na procu- 
ra de regiões de identidade ou de sobreposi- 
ção, de maneira a construir fragmentos 
contíguos [contigs), os quais podem ser defi- 
nidos como a união de duas ou mais sequên- 
cias [reads) formadas por sobreposição de 
elementos comuns a pelo menos duas se- 
quências (Figura 1-4). 

Os primeiros algoritmos para montagem de geno- 
mas se baseavam no alinhamento dos reads e na con- 
catenação de sequências obtidas dos reads com os 
maiores alinhamentos. 0 processo se dava de forma 
cíclica, concatenando as sequências com o maior ali- 
nhamento até que todos estes alinhamentos fossem 
utilizados. Esta montagem de genomas a partir de 
reads tem como base os seguintes passos: 

/) cálculo de alinhamentos aos pares de todos os 
fragmentos: 

ii) escolha de dois fragmentos com a maior so- 
breposição: 

Ui) fusão dos dois fragmentos: 

iv) repetição dos passos anteriores até obtenção 

de uma única sequência. 

Para as novas metodologias de sequenciamento, 
devido ao tamanho relativamente menor dos fragmen- 
tos, algoritmos diferentes foram desenvolvidos. Os 


Construção de 
sub-bibliotecas 
com sobreposição 
de sequência 
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Fragmentação separada 
de cada clone 



Alinhamento 

Consenso 


KGTCAGTCAGTCAGTCAGTCAGTAC CAGTCGTACGTACGT 

AGTCAGTCAGTACTGCTGCTGCGTGG 
, CAGTCAGTACTOCTOCTOCOTGGTOT 

CGTGGIGTATGCAGTCGTAC 

1 CAGTCGTACGTACGT 


^OTCAOTCAOTCAOTCAOTCAOTACTOCTOCTOCOTOOTOTATOCAOTCOTACOTACOT jj 


SuperContig ou Scaffold 

Figura 1-4: Montagem de genomas utilizando a estratégia de sequenciamento de genomas por 
shotgun. 0 painel à esquerda ilustra um esquema utilizado para genomas de menor tamanho e 
reduzido conteúdo de sequências repetitivas. 0 painel à direita ilustra uma estratégia mais 
complexa, usado para organismos com genoma maior. 
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programas de montagem atuais utilizam grafos de so- 
breposição ou grafos de Bruijn. Estes grafos identifi- 
cam reads com possibilidade de compartilharem 
trechos de sobreposição entre si utilizando uma estra- 
tégia baseada no alinhamento em sementes. 

Com esta abordagem, pequenos fragmentos de 
comprimento fixo obtido de cada reod, os k-mers, são 
usados como um índice, e apenas pares de leituras que 
partilham uma semente são posteriormente avaliados. 
Os grafos de Bruiijn baseiam-se na decomposição de 
reads em k-mers (por exemplo dodecâmeros, ou seja 
fragmentos de 12 nucleotídeos), os quais são utilizados 
como nodos destes grafos. Uma ligação direta entre os 
nodos indica que estes k-mers ocorrem consecutiva- 
mente em um ou mais reads. 

Uma série de programas foram desen- 
volvidos para a montagem de genomas, utili- 
zando diferentes algoritmos (Tabela 1-4). No 
caso de sequenciamento de genomas proca- 
rióticos, ao final do processo é esperada a 
obtenção de uma sequência única, a qual re- 
presenta toda a sequência nucleotídica do 
cromossomo. Sabe-se, todavia, que plasmí- 
deos podem ser encontrados em diversos 
micro-organismos. Assim o número de 
contigs será dependente do número de plas- 
mídeos e, em casos menos frequentes, do 
número de cromossomos presentes naquela 
bactéria. 

Ao ser analisado o genoma de organis- 
mos eucariotos, nos quais se encontra uma 
grande variação no número de cromossomos, 
um número maior de contigs é esperado. Te- 
oricamente, cada cromossomo deveria ser 
representado por um contig. Entretanto, nos 
passos iniciais de montagem de genomas são 
observados dezenas a centenas de contigs, 
dependendo da complexidade do organismo 
cujo genoma esta sendo sequenciado. Os ge- 
nomas de eucariotos, em especial de eucari- 
otos superiores, possuem pelo menos duas 
características que tornam o processo de 
montagem mais complexo: 

i) uma quantidade considerável de se- 
quências repetitivas que dificulta o pro- 
cesso de montagem devido a 
alinhamentos de alto escore com diver- 
sas sequências: 

ü ) o seu tamanho, podendo chegar a 


Tabela 1-4: Principais programas utilizados na 
montagem de genomas e transcriptomas. 

Nome 

Análise 

ABySS 

grandes genomas 

ALLPATHS-LG 

grandes genomas 

Celera WGS Assembier 

grandes genomas 

CLC Genomics 

genomas e 

Workbench 

trancriptomas 

Geneious 

genomas 

Newbler 

genomas e 
transcriptomas 

Phrap 

genomas e 
transcriptomas 

SOAPdenovo 

genomas e 
transcriptomas 

Staden gap4 packoge 

genomas pequenos e 
transcriptomas 

Trans-ABySS 

transcriptomas 

Velvet 

genomas pequenos e 
transcriptomas 


mais de 3 bilhões de pares de base (ca- 
so do genoma humano). 

Para sobrepujar estas dificuldades, pas- 
sos intermediários se tornam necessários, 
como a construção de sub-bibliotecas genô- 
micas. Cada uma destas sub-bibliotecas é se- 
quenciada, de forma a gerar contigs. 0 
conjunto de diferentes contigs oriundos de di- 
ferentes sub-bibliotecas será utilizado para a 
geração de scaffolds (Figura 1-4). Geralmen- 
te, são necessários passos adicionais de clo- 
nagens de regiões específicas do genoma e 
posterior sequenciamento destas para o “fe- 
chamento” do genoma. 

Um dos maiores desafios, entretanto, para o se- 
quenciamento de genomas reside na adequada monta- 
gem de regiões repetitivas. No genoma humano, por 
exemplo, existem pelo menos seis classes de sequên- 
cias repetitivas: 

/) minissatálites, microssatélites ou satélites: 
ii) SINEs (elementos nucleares pequenos inter- 
calados): 

Ui) LINEs (elementos nucleares longos intercala- 
dos): 

iv ) transposons; 
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v) retrotransposons; 

vi) clusters de genes DNAr (genes responsáveis 
pela síntese dos RNA ribossômicos - RNAr). 

Estas diferentes classes, cujos tamanhos podem 
variar de centenas de pares de base, caso de micros- 
satélites e SINEs, a dezenas de milhares de pares de 
base, observado em cLusters de genes DNAr, podem 
constituir mais de 50 % do tamanho de cada cromos- 
somo humano. 

0 grande desafio na montagem de sequências ge- 
nômicas com alto conteúdo de elementos repetitivos 
se refere a correta quantificação e localização destes 
elementos nos cromossomos. Desta forma, o desafio 
central da montagem de genomas reside na resolução 
destas sequências repetitivas, estando este desafio di- 
retamente associado à metodologia de sequenciamen- 
to utilizada. Por exemplo, se forem obtidos reads de 
tamanho menor que uma unidade de repetição, todos 
estes reads serão utilizados para formar um contig que 
contém apenas a sequência de repetição. Entretanto, 
ao serem obtidos reads com tamanho maior que a uni- 
dade de repetição, os mesmos podem ser utilizados na 
resolução da localização destas sequências repetitivas 
em um determinado cromossomo. 

Alguns programas permitem montar genomas 
complexos com repetições baseados em reads maio- 
res (como os obtidos pela metodologia de Sanger ou 
piro5equenciamento). Para tal, estes programas reali- 
zam a montagem em duas ou mais fases distintas, nas 
quais as sequências repetitivas são processadas sepa- 
radamente. Em um primeira fase do processo de mon- 
tagem, reads contendo sobreposição de sequências 
não ambíguas são agrupados em contig s, cujas extre- 
midades contém as regiões limítrofes das sequências 
de repetição. A segunda fase se caracteriza pela mon- 
tagem de contig s não ambíguos em sequências maio- 
res, usando dados de reads mate-pair. 

Dados de sequenciamento paired-end oferecem a 
possibilidade da determinação exata de sequências que 
flanqueiam uma determinada sequência de repetição. 
Em experimentos tradicionais associados ao sequenci- 
amento de Sanger, um protocolo paired-end inicia-se 
com longos fragmentos de DNA clonados em vetores 
para sua replicação em Escherichia coii. As extremida- 
des destes fragmentos poderiam assim ser facilmente 
determinadas por sequenciamento. Protocolos paired- 
end para as estratégias de sequenciamento atuais não 
requerem passos de clonagem em E. coii. Entretanto, 


os mesmos se baseiam na circularização do fragmento 
de DNA do tamanho desejado, sendo as extremidades 
posteriormente reconhecidas devido à etiqueta (tog) 
utilizada para propiciar a circularização por meio da li- 
gação. Com a determinação das sequências flanquea- 
doras de uma repetição, há maior chance de conseguir 
determinar a sua localização em um genoma. 

A qualidade de montagem do genoma 
pode ser acompanhado por alguns índices. A 
cobertura reflete a quantidade de reads as- 
sociados a um determinado fragmento de 
DNA. Por exemplo, uma cobertura de 1ÜX in- 
dica que, para o genoma sendo avaliado, cada 
nucleotídeo foi encontrado em pelo menos 10 
reads. 

Outro valor importante refere-se ao 
N50. Trata-se de uma medida estatística mui- 
to utilizada para avaliar a qualidade da mon- 
tagem, visto que revela o quanto de um 
genoma é coberto por contigs grandes. Um 
valor de N50 igual a n significa que 50% dos 
reads estão montados em um contig de ta- 
manho n ou maior. Por exemplo, na monta- 
gem do genoma de cão doméstico, 
depositado no NCBI sob o número de acesso 
AAEX03, o sequenciamento dos 40 cromos- 
somos, com uma sequência total de 
2.410.976.875 bases gerou 27.106 contigs 
com um N50 de 267.678. Isto significa que 
mais de 50% dos reads estão associados a 
contigs de 267.678 bases ou maiores. 

4.3. Montagem de transcriptomas 

Em análises de novos genomas, um 
ponto importante se refere à identificação de 
transcritos. Alem de fornecer indícios sobre 
quais genes estão sendo expressos em uma 
determinada situação fisiológica a qual as cé- 
lulas ou tecidos estão sendo expostos, o se- 
quenciamento de transcritos tem uma 
aplicação importante na procura de sequên- 
cias codificantes em genomas. Esta estratégia 
tem uma aplicabilidade muito grande em or- 
ganismos em que o conteúdo de íntrons por 
gene é grande, como em eucariotos mais 
complexos. 

Ao contrário de genomas, em transcrip- 
tomas o material de partida geralmente é 
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cDNA, obtido a partir de transcrição reversa 
de RNA. A grande maioria dos trabalhos se dá 
em torno de RNAm mas, cada vez mais, RNAs 
não codificantes, com possível papel regula- 
tório, estão sendo avaliados por esta meto- 
dologia (ver abaixo). 0 pooi de cDNAs pode 
então ser subclonado e ser submetido ao se- 
quenciamento pela metodologia de Sanger ou 
diretamente fragmentado e ser submetido ao 
sequenciamento NG5. Uma grande lista de 
reoc/s é então obtida, os quais podem ser uti- 
lizados para realizar a montagem do trans- 
criptoma de novo ou ser ancorados a 
sequência de um genoma para ajudar na 
identificação de sequências codificantes e de 
extremidades éxon/íntron. 

No caso da montagem de novo, os 
reads são alinhados e aqueles que apresen- 
tam alinhamento positivo são fusionados, 
dando origem a contigs. Entretanto, diferen- 
temente da análise de genomas, muitos 
contigs são gerados, cada um possivelmente 
representando um mRNA maduro. 

Adicionalmente, alguns programas po- 
dem, além de realizar a montagem de trans- 
criptomas ou alinhamento a genomas, fazer 
uma análise da representatividade de cada 
transcrito dentro do conjunto total de RNA 
analisado, por meio do cálculo da frequência 
relativa de cada transcrito identificado. Com 
estes cálculos é possível realizar análises de 
expressão diferencial de genes. Dentre os pa- 
cotes de programas utilizados, podem ser ci- 
tados Cufflinks-Cuffdiff, DegSeq, DESeq, 
EdgeR, entre outros. 

A análise desta expressão relativa de transcritos 
pode ser realizada com base em duas estratégias prin- 
cipais: 

i) mapeamento a uma sequência genômica pre- 
viamente conhecida: 

ii) análise de novo, independente da sequência 
genômica e baseada na montagem dos transcri- 
tos diretamente a partir dos reads. 

Na primeira estratégia, os reads são mapeados ao 
genoma, ou seja, as regiões de identidade nucleotídica 
são ancoradas à sequência genômica, sendo identifica- 
das por metodologias de sequenciamento que levam 
em consideração o número de reads mapeados em re- 


lação à porção do genoma que contém um gene. Al- 
guns dos programas para este tipo de mapeamento in- 
cluem Bowtie, Tophat e SOAR dentre outros. Como 
resultado, uma determinada sequência do genoma é 
representada por um grande número de reads, no caso 
de genes mais expressos, ou um baixo número de 
reads, no caso de genes menos expressos. 

Deve ser levado em consideração, entretanto, que 
quanto maior o tamanho do gene mais se espera en- 
contrar reads associados a este gene. Desta forma, a 
maneira mais comum para se calcular a expressão re- 
lativa de um determinado gene é o RPKM (reads per ki- 
iobase of transcript per mittion mapped reads - reads 
por kilobase de transcrito por milhões de reads mape- 
ados). Esta abordagem permite uma análise compara- 
tiva baseada em uma série de análises estatísticas para 
comparação de transcritos com diferentes RPKMs de 
diferentes amostras biológicas ou diferentes tempos 
de tratamento, por exemplo. 

Quando são considerados organismos cujo genoma 
ainda não foi determinado, uma construção do trans- 
criptoma a partir de dados de RNAseq é realizada (de 
novo). A partir das sequências dos transcritos gerados, 
é possível então fazer o cálculo do RPKM de cada 
transcrito identificado. 

kA. Identificação/anotação genica 

A anotação de genomas é o passo se- 
guinte à montagem dos genomas. Trata-se de 
um conjunto de protocolos e fluxos de traba- 
lho utilizados para delimitar, em uma deter- 
minada sequência genômica, possíveis genes 
e predizer a sua função com base na similari- 
dade com sequências conservadas. Basica- 
mente, existem dois grande grupos de genes 
avaliados nestas metodologias. 0 primeiro 
grupo se refere àqueles cujo produto é reco- 
nhecido pelos ribossomos e dará origem a 
uma proteína (ou seja, RNAm). Já o segundo 
engloba os genes cujo produto terá funções 
estruturais e funcionais dependentes da pró- 
pria molécula de RNA, como RNAt e RNAr. Di- 
ferentes abordagens são utilizadas para 
identificar as sequências de cada um destes 
grupos de genes, como será visto abaixo. 
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Identificação de regiões codifican- 
tes 

O mecanismo de delimitação da se- 
quência genica é drasticamente influenciado 
pelo Domínio ao qual pertence o organismo 
cuja sequência genômica foi determinada. Isto 
se deve ao fato de que existe uma grande di- 
ferença nas estruturas de genes procarióticos 
e eucarióticos. 

Genes procarióticos codificantes de 
proteínas são colineares com seus produtos 
gênicos. Esta característica permite inferir 
que toda região delimitada por um códon de 
inicio e um códon de término, região esta de- 
nominada de ORF (Open Reoding Frame), po- 
tencialmente constitui uma região codificante 
de uma proteína em um genoma procariótico. 

Por sua vez, genes eucarióticos codifi- 
cantes de proteínas são mais complexos, ge- 
ralmente sendo caracterizados pela presença 
de sequências intervenientes ou íntrons. Até 
pouco tempo, acreditava-se que íntrons cons- 
tituíam um produto da evolução que povoou 
as sequências gênicas com o chamado “DNA 
lixo”, de modo que uma mutação que eventu- 
almente viesse a acontecer tivesse maior 
possibilidade de ocorrer em regiões do gene 
que não têm capacidade codificante. Recente- 


mente, contudo, determinou-se que os íntrons 
exercem um importante papel regulatório na 
expressão gênica. 

íntrons são elementos gênicos que, du- 
rante o processo de expressão gênica, são 
excisados durante o processamento do RNA, 
em um grande complexo de reações denomi- 
nado s piicing. Os íntrons podem variar em 
número e tamanho, dependendo da comple- 
xidade do organismo. Assim, em organismos 
mais simples, como leveduras e fungos fila- 
mentosos, o número de íntrons por gene é 
pequeno (geralmente de 1 a 4 por gene), as- 
sim como o seu tamanho (geralmente girando 
em torno de 50 pb). 

Ao contrário, em organismos mais 
complexos como humanos e plantas, tanto o 
número de íntrons por gene quanto o seu ta- 
manho aumentam significativamente, de for- 
ma que grande parte do gene é constituído 
por íntrons (mais de 90%, dependendo do 
organismo). Um comparativo entre as estru- 
turas básicas de genes codificantes de proteí- 
nas procarióticos e eucarióticos, assim como 
os seus respectivos processos de expressão, 
é apresentado na Figura 2-4. 

Associado ao grande número de íntrons, 
genes de organismos eucarióticos mais com- 
plexos geralmente são caracterizados pelo 
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Figura 2-4: Esquema representando os elementos encontrados em genes procarióticos (quadro 
superior) e eucarióticos (quadro inferior). Os genes estão representados no sentido 5’-3’ e 
podem ser notadas as principais diferenças entre estas classes de genes, como a presença de 
íntrons e regiões regulatórias mais complexas em eucariotos. 


68 


4. Projetos Genoma 



s piicing alternativo. Este processo é caracte- 
rizado pela incorporação diferencial de íntrons 
e éxons no RNAm maduro, de forma a produ- 
zir diferentes proteínas a partir do mesmo 
gene. 

Diferentes estratégias para procura de 
genes em genomas foram desenvolvidas 
considerando estas características diferenci- 
ais na estrutura de genes procarióticos e eu- 
carióticos. A procura de ORFs em genomas 
procarióticos constitui uma estratégia simples 
e direta. Entretanto, é uma estratégia sujeita a 
uma diversidade de erros. 

Nestas predições, não são considerados 
elementos canônicos clássicos presentes na 
estrutura de genes (isto é, sequências con- 
servadas para ligação do fator sigma, região 
de ligação do ribossomo, sítio de início de tra- 
dução e sítio de término de tradução) e ope- 
rons, os quais poderiam auxiliar na procura ob 
initio (ou seja, diretamente a partir de se- 
quência, sem informações experimentais di- 
retas sobre o produto gênico) de genes em 
genomas procarióticos. Assim, a procura de 
genes baseada apenas na identificação de 
ORFs geralmente leva a um número grande 
de resultados falsos positivos e falsos nega- 
tivos (Figura 3-4). 

Para sobrepujar estas limitações, me- 
canismos de delimitação das sequências gê- 
nicas em genomas procarióticos foram então 
desenvolvidos e se baseiam em algoritmos 
característicos para detectar, na sequência de 
DNA, dois tipos fundamentais de informações: 
sinais e conteúdo. Estes mecanismos foram 
então expandidos para procura de genes em 


organismos eucarióticos. 

Os detectores de sinais procuram por 
caracteres funcionais específicos de genes, 
tanto associados à transcrição quanto à tra- 
dução. Sinais transcricionais incluem sequên- 
cias canônicas conservadas que delimitam as 
regiões necessárias para que se inicie o pro- 
cesso de transcrição. Os sinais mais comu- 
mente descritos em procariotos são as 
regiões -35 e -10 e as sequências de associa- 
ção com a RNA Polimerase. Já os sinais pro- 
curados em sequências eucarióticas 
geralmente constituem a região TATA box, 
assim como o sítio de clivagem e poliadenila- 
ção, que caracteriza o terminador. 

Os sinais traducionais, por sua vez, se 
referem basicamente às regiões importantes 
para recrutamento de ribossomos, como o 
RB5 (ribosome binding s/te, ou sitio de ligação 
a ribossomos) em procariotos. Como este 
mecanismo é diferente em organismos euca- 
rióticos, uma região conservada, denominada 
sequência de Kozak, é utilizada como sinal 
traducional em eucariotos. Estas duas regiões 
se localizam imediatamente a montante 
( upstream ) aos respectivos códons de início, e 
desempenham um papel importante nos me- 
canismos de delimitação de genes. 

Adicionalmente, a detecção de sinais 
que delimitam os íntrons também são utiliza- 
dos pois, como abordado anteriormente, os 
genes de eucariotos são amplamente povoa- 
dos por íntrons. Desta forma, a correta predi- 
ção da posição de íntrons é fundamental para 
correta anotação do gene, sendo que os 
principais sinais a serem avaliados são os nu- 


2357 pb 


xdhA 



Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de 
genes em organismos procarióticos. Como exemplo, uma sequência de DNA de 2357 pb da 
bactéria E. coti H5 (nucleotídeos 3027764 ao 3Ü3Ü12Ü - Código de Acesso junto ao NCBI 
NC_00980Ü.1), o qual contém o gene xdhA, foi avaliada quanto à presença de ORFs com mais 
de 150 pb com o programa ORF Finder. A sequência anotada do gene encontra-se em vermelho, 
ao passo que as possíveis ORFs estão demarcadas em azul. 
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cleotídeos que compõem as extremidades 
conservadas 5’ e 3’ do íntron, mais comu- 
mente GT e AG (ver abaixo). 

Já os detectores de conteúdo classifi- 
cam a sequência de DNA em codificante e 
não-codificante. Como região não-codificante 
entendem-se íntrons, regiões intergênicas e 
regiões não traduzidas dos genes. Os detec- 
tores de conteúdo podem ainda ser subdividi- 
dos em detectores extrínsecos e detectores 
intrínsecos. Os detectores de conteúdo ex- 
trínsecos se baseiam no fato de que regiões 
codificantes são mais conservadas em rela- 
ção às não-codificantes propiciando, desta 
forma, a identificação de éxons conservados 
com base em procuras por homologia. 

0 mecanismo básico desta busca é 
através do programa BLAST (ver capítulo 3). 
Contudo, uma limitação nesta metodologia se 
refere à avaliação adequada da presença de 
ortólogos diretos. Desta forma, a distância fi- 
logenética (isto é, evolutiva, ver capítulo 5) 
entre o organismo cujo genoma está sendo 
analisado e aqueles organismos cujas se- 
quências estão depositadas nos bancos de 
dados pode influenciar diretamente no resul- 
tado. 

Detectores de conteúdo intrínseco, por 
sua vez, tem como foco principal algumas 
características inatas do DNA, as quais per- 
mitem a predição do potencial de uma se- 
quência codificar ou não uma proteína. Como 
exemplos de características avaliadas em de- 
tectores intrínsecos podem ser citados: 

i) em muitos organismos há uma prefe- 
rência das bases G ou C em relação às 
bases A ou T na terceira posição do có- 
don; 

/'/') a utilização diferencial de códons si- 
nônimos, ou seja, diferentes códons que 
codificam para o mesmo aminoácido; 

Ui) frequência de distintas sequências 
nucleotídicas hexaméricas; 
iv) a periodicidade de ocorrência de ba- 
ses, dentre outros. 

Estes caracteres são utilizados, por 
exemplo, em modelos de Markov para a 
construção de modelos capazes de reconhe- 


cer sequências codificantes. Com base nos 
mecanismos discutidos acima, dois principais 
sistemas para procura de genes em genomas 
de eucariotos foram construídos, denomina- 
dos empírico e ab initio. 

Procuro empírica de genes 

A predição empírica ou baseada em evi- 
dência leva em consideração buscas por si- 
milaridade com outros bancos de dados 
(genômicos, transcritômicos ou proteômicos) 
para identificar e delimitar as sequências gê- 
nicas. Métodos de identificação de genes ba- 
seados em similaridade são considerados de 
alta confiabilidade para localizar e construir 
modelos gênicos, desde que existam relatos 
prévios de estruturas gênicas do próprio or- 
ganismo (como, por exemplo, sequências de 
RNAm) ou baseado em análises de conserva- 
ção provenientes de alinhamentos de geno- 
mas de espécies filogeneticamente 
relacionadas. 

Especialmente para o caso de organis- 
mos eucarióticos, alinhamentos de sequências 
oriundas de bancos de dados de proteínas ou 
de transcritos contra o genoma em anotação 
permitem aferir que, geralmente, os gaps 
constituem os íntrons. Esta premissa é fre- 
quentemente acompanhada pela observação 
de que as sequências limítrofes dos íntrons 
identificados constituem os dinucleotídeos 
consenso GT e AG, característicos sítios 5’ e 
3’ dos íntrons. Estes alinhamentos geram 
forte evidência dos componentes das estru- 
turas dos genes, muitas vezes definindo 
completamente a localização de cada éxon e 
cada íntron (Figura 4-4). 

Procura ab initio de genes 

A predição ab initio, por sua vez, depen- 
de tanto da informação de detectores de si- 
nais quanto de conteúdo para delimitar a 
sequência gênica. Para tal, os algoritmos que 
se valem desta estratégia utilizam redes neu- 
rais, transformadas de Fourier e, mais comu- 
mente, modelos de Markov. Para realizar 
estas detecções, os algoritmos são treinados 
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com sequências conhecidas do genoma em 
questão. Por exemplo, a Figura 5-4 ilustra o 
grau de conservação dos nucleotídeos pre- 
sentes na sequência de Kozak de Drosophiia 
meionogoster, perfil este que pode ser utili- 
zado na predição de novas sequências codifi- 
cantes neste organismo. Outro exemplo pode 
ser observado no grau de conservação das 
regiões 5’ e 3’ provenientes de íntrons de ge- 
nes humanos (Figura 6-4). 

Dentre as limitações da predição ob 
initio está o fato de que, usualmente, o resul- 
tado obtido se refere às regiões codificantes, 
sem informações sobre regiões não traduzi- 
das ou transcritos provenientes de s pticing 
alternativo. 

Assim, para sobrepujar estas limitações 
a combinação das duas estratégias parece ser 
a mais eficaz nos fluxos de trabalho utilizados 
para predição de genes em genomas sequen- 
ciados. Para tanto, alguns destes algoritmos 
são treinados com modelos gênicos já conhe- 
cidos, de organismos filogeneticamente pró- 
ximos e, assim, provavelmente possuem uma 
estrutura gênica muito parecida com a do or- 
ganismo que está em análise. 

Anotação de regiões codificantes 

0 passo seguinte à identificação de se- 
quências que possivelmente constituem ge- 
nes é a sua anotação. A anotação manual foi 
bastante utilizada na análise dos primeiros 
genomas. Entretanto, devido à complexidade 


e ao alto número de sequências genômicas 
disponibilizadas a cada dia, há um consenso 
de que a anotação automática está se tor- 
nando indispensável. 

A forma mais simples de anotação au- 
tomática se dá pela análise de uma série de 
diferentes mecanismos de predição e delimi- 
tação de sequências gênicas e, então, utiliza- 
ção de um algoritmo de seleção, também 
denominado de combiner. Este algoritmo tem 
a função de selecionar a predição que melhor 
represente os modelos gênicos frente os al- 
goritmos utilizados. Para tanto, os combiners 
estimam os tipos e as frequências de erros 
oriundos de cada programa de predição, es- 
colhendo posteriormente as combinações de 
evidências que minimizam tais erros. Após as 
predições ob initio e baseados em evidência, 
alguns dos combiners devem ser treinados 
com sequências não previamente utilizadas 
nos programas de predições de genes. 

Os combiners mais atuais utilizam téc- 
nicas que combinam evidências não estocás- 
ticas ponderadas ( nonstochostic weighted 
evidence) que computam tanto o tipo quanto 
a abundância de uma evidência para o cálculo 
da sequência gênica consenso. Uma lista dos 
algoritmos mais utilizados para confecção de 
fluxos de trabalho para identificação de ge- 
nes está disponível na Tabela 2-4. 

A anotação da função de genes é um 
processo basicamente comparativo, sendo 
utilizados bancos de dados de proteínas, co- 
mo o NCBI ou o UniProt (trEMBL + Swiss-Prot) 


cDNA 
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Figura 4-4: Identificação de genes baseada em evidência. Utilizando BLASTn com base em dados 
de transcritoma (cDNA, em azul), pode ser alcançada uma aproximação da sequência do gene 
(vermelho), inclusive permitindo a delimitação de éxons e íntrons. As regiões de identidade 
estão delimitadas por traços verticais. Com base na sequência de íntrons (quadros na porção 
inferior), é possível construir modelos para sua predição. Modelo construído com base no gene 
F10E9.5 de Coenorhobditis eiegons (código de acesso NCBI NC_003281). 
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Figura 5-4: Padrão de conservação de 
nucleotídeos da sequência de Kozak, baseado 
no alinhamento de 30 sequências de cDNA 
obtidas de D. melanogaster e analisados junto 
ao servidor WebLogo. A medida de 
conservação é refletida pela altura da base. 
Os números abaixo representam o códon de 
início de tradução (1 a 3), o segundo códon do 
mRNA (4 a 6) e a região a montante (-8 a -1). 

ou de domínios proteicos (PFAM, NCBI CDD, 
Interpro). Uma das vantagens da utilização do 
Swiss-Prot como banco de dados para identi- 
ficação dos produtos gênicos se refere ao fa- 
to deste ser um banco de dados 
manualmente curado, ou seja, inspecionado 
contra possíveis erros decorrentes da anota- 
ção automática. Com base nestas análises, 
quatro grupos distintos de anotações podem 
ser realizadas: 

i) a existência de um ortólogo direto 
previamente caracterizado, revelado 
por BLA5T, gerará a anotação com base 
no nome do ortólogo: 

ii) a inexistência de um ortólogo direto, 
mas a presença de um domínio proteico 
conservado, revelado por análises em 
PFAM ou Interpro, gerará a anotação 
“domain contoining proteirí’ ou proteína 
contendo o domínio; 

/'/'/') a inexistência de ortólogos diretos 
previamente caracterizados ou domínios 
conservados confere as anotações pro- 
teína predita ( predicted proteirí) ou pro- 
teína hipotética ( hypotheticol proteirí): 
iv) quando um gene codificante de pro- 
teína hipotética possui ortólogos diretos, 
eles são denominados codificadores de 
proteína hipotética conservada 
( conserved hypotheticol proteirí). 

Outro passo na anotação da função de 


Região 5’do íntron 



Figura 6-4: Padrão de conservação de 
nucleotídeos nas regiões 5’ (painel superior) e 
3’ (painel inferior) de íntrons humanos. 
Resultado obtido pelo alinhamento de 100 
sequências intrônicas e analisados junto ao 
servidor WebLogo. A medida de conservação 
é refletida pela altura da base. Os números 
abaixo de cada esquema indicam o início e o 
fim do íntron (0 e 1 no esquema superior: -2 e 
-1 no esquema inferior), assim como as 
regiões adjacentes. 

genes se refere à predição da localização da 
proteína codificada por este gene. Por exem- 
plo, se uma proteína possui muitas regiões hi- 
drofóbicas, compatíveis com sua inserção em 
membrana, possivelmente esta será uma 
proteína integral de membrana. Adicional- 
mente, proteínas secretadas ou endereçadas 
a alguma organela geralmente apresentam 
uma sequência sinal. 

Diversas ferramentas estão disponíveis 
para localização de domínios transmembrana 
(TMHMM, TMPred, HMMTOp), baseando-se 
em métodos estatísticos para aferição da 
presença destes domínios. Métodos mais ro- 
bustos para determinar a localização celular 
de um produto gênico foram desenvolvidos e 
se baseiam em uma diversidade de métodos 
estatísticos, geralmente treinados com se- 
quências proteicas conhecidamente perten- 
centes a algum sub-compartimento celular 
(Tabela 3-4). De uma maneira geral, todas 
estas ferramentas são utilizadas na constru- 
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Tabela 2-4: Principais algoritmos utilizados na predição de genes e a sua funcionalidade. 


Algoritmo 

Descrição 

Aplicação 

Predições ob initio e baseados em evidência 


Augustus 

Aceita evidências baseadas em transcriptomas e banco de dados de 
proteínas 

Eucariotos 

FGNESH 

Arquivos para treino derivados de análise do fabricante 

Eucariotos 

fgenesB 

Predição de genes e operons em bactérias baseadas em padrões e 
cadeias de Markov 

Procariotos 

Genemark 

Arquitetura de busca baseada em self-training 

Procariotos e 
eucariotos 

Twinscan 

Extensão do algoritmo Genscan que utiliza homologia entre dois 
genomas para guiar a predição de genes 

Eucariotos 

GenomeScan 

Extensão do algoritmo Genscan que utiliza BLASTx para guiar a 
predição de genes 

Eucariotos 

Glimmer 

Utiliza modelos de Markov interpolados 

Procariotos 

Combiners 

Evidence Modeler 

Tem como resultado um modelo gênico pela combinação de 
evidências obtidas a partir de alinhamento de dados transcriptômicos 
e proteômicos com predições ob initio 

Eucariotos 

Evigan 

Algoritmo de evidências probabilísticas que usa redes Bayesianas 
para pontuar e integrar predições ob initio e baseadas em evidência 
para produzir modelos gênicos. 

Eucariotos 


ção de fluxos de trabalho que integram dife- 
rentes ferramentas para analisar o resultado 
da predição de cada gene, conferindo uma 
anotação geral (Figura 7-4). 

4.5. Identificação/anotação RNAnc 

Considerando o dogma central da biolo- 
gia molecular, no processo de síntese proteica 
(tradução) há a participação direta de pelo 
menos três classes distintas de RNAs: 

i) o RNA mensageiro, que servirá de 
molde para síntese da proteína: 

ii) o RNA ribossômico que, como indica o 
nome, é um componente estrutural e 
funcional dos ribossomos; 

iii) o RNA transportador, que funciona 
como adaptador, carreando aminoáci- 
dos para serem incorporados na cadeia 
nascente da proteína durante o proces- 
so de tradução. 

A anotação de genes de RNAs não codi- 


ficantes - RNAnc (RNAt, RNAr, dentre outros) 
ainda não apresenta um grande número de 
programas quando comparada às estratégias 
disponíveis para anotação de genes codifican- 
tes de proteínas. Isto se deve, principalmente, 
à grande heterogeneidade e à pequena con- 
servação dos RNAnc quando comparados a 
sequências de proteínas. Ao contrário de ge- 
nes codificantes de proteínas, RNAnc geral- 
mente não apresentam conservação de 
sequência 1 ária , dificultando a detecção destes 
genes. 

Um dos mecanismos mais utilizados na 
busca de RNAt em genomas é o tRNAscan-SE. 
Este algoritmo se baseia em uma série de 
cálculos estatísticos que avaliam, entre ou- 
tros parâmetros, o potencial local para for- 
mação das estruturas 2 árias típicas de tRNAs 
em forma de trevo, assim como a presença 
de bases invariantes que definem regiões 
conservadas presentes nos promotores des- 
tes genes. Outro mecanismo de busca de 
RNAts se refere ao algoritmo ARAGORN. A 
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Tabela 3-4: Principais algoritmos utilizados na predição da localização celular de proteínas. 


Algoritmo 


Descricão 


Aplicação 


BaCelLo 


LOCtree 


TARGETp 
Wolf P50RT 


Cell-PLoc 


Com base na composição de aminoácidos e sequências de treino, 
prediz em 5 localizações (secretada, citoplasmática, nuclear, 
mitocondrial e cloroplástica) 

Com base na sequência N-terminal, prediz a localização em 
secretada, citoplasmática, nuclear, mitocondrial, cloroplástica e 
organelar. 

Com base na sequência N-terminal, prediz a localização como 
secretada, mitocondrial e cloroplástica, dentre outras. 


Plantas, animais e 
fungos 

Eucariotos e 
procariotos 

Eucariotos e 
procariotos 


Com base na sequência N-terminal e regras empíricas, classifica o 
endereçamento em cloroplástico, citosólico, citosesqueleto, 
retículo endoplasmático, extracelular, golgi, lisossômico, 
mitocondrial, nuclear, peroxissomal, membrana plasmática e 
membrana vacuolar. Permite localização múltipla. 

Permite realizar a localização de proteínas em mais de 25 
diferentes locais, baseados em treino com sequências cuja 
proteína tem localização conhecida. 


Animais, fungos e 
plantas 


Eucariotos, 
procariotos e vírus 


estratégia deste programa para a procura de 
tRNAs em sequências nucleotídicas se baseia 
em algoritmos heurísticos para a predição da 
estrutura do tRNA baseada na homologia com 
sequências conservadas, assim como a po- 
tencialidade de formar estruturas 2 árias típicas 
do tRNA. Por fim, o tRNAfinder se baseia em 
cálculos para detecção da estrutura 2 ária do 
RNA predito para identificar genes de tRNA. 

Já a predição de RNArs é baseada em 
conservação de sequências. Ao passo que or- 
ganismos procarióticos possuem geralmente 
três moléculas de RNAr (235, 165 e 55) com- 
pletamente maduras e funcionais, eucariotos 
possuem quatro (285, 185, 5.85 e 55). Cada 
uma destas sequências apresenta grande 
grau de conservação com os ortólogos de di- 
ferentes organismos. Desta forma, ferra- 
mentas baseadas em Modelos Ocultos de 
Markov, como o RNAmmer, foram construí- 
das para delineamento dos genes responsá- 
veis pelos RNArs. Adicionalmente, um grande 
banco de dados com famílias de RNA foi 
construído, e a cada ano novas adições de se- 
quências de RNAs são feitas ao RFam. Estas 
famílias podem ser classificadas em três 
grandes grupos: 

i) RNAs não codificantes (RNAnc); 


ii) elementos estruturais regulatórios 
em c/s, característicos de alguns RNAm 
que desempenham função de regulação 
da expressão gênica principalmente por 
meio da formação de estruturas 2 arias ; 

Ui) RNAs que podem sofrer o processo 
de auto-splidng. 

Cada uma destas famílias é representa- 
da por alinhamentos múltiplos, consensos de 
estruturas 2 árias e modelos de covariância. Por 
meio de comparação de sequências com os 
consensos obtidos para os modelos de cada 
família, é possível identificar genes responsá- 
veis pelos rRNAs, tais como os snoRNAs, que 
são componentes do spliceossomo. Existe 
ainda, contudo, uma grande gama de outros 
RNAnc que não apresentam grau de conser- 
vação necessário para formar uma família. 

Identificação de pequenos RNAs 

0 termo “pequeno RNA” é, conceitual- 
mente, muito vago e acaba englobando dife- 
rentes classes destes, como microRNAs, 
siRNAs, TAS-siRNAs, tRFs, entre outras. Con- 
tudo, existem características dos pequenos 
RNAs que podem ser utilizadas para identifi- 


74 




4. Projetos Genoma 



car as classes distintas: não codificam proteí- 
nas (apesar de alguns serem originados de 
regiões codificadoras), possuem tamanho va- 
riando entre poucas dezenas de nucleotídeos, 
suas rotas de biogênese e seus papéis funcio- 
nais. 

Os pequenos RNAs fazem parte de um 
grupo de pequenas moléculas, sendo conhe- 
cidos há décadas, e inicial e erroneamente 
creditados como produtos de degradação de 
RNA, não possuindo um papel biológico espe- 
cífico. Com a identificação do fenômeno de si- 
lenciamento gênico (RNAi) foi observado que 
pequenos RNAs poderiam, de fato, desempe- 
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Figura 7-4: Um fluxo de trabalho genérico 
para anotação de genes. 


nhar um papel funcional, regulando a expres- 
são genica em vários níveis. Devido ao papel 
de forte regulador da expressão genica, muita 
atenção tem sido dada aos pequenos RNAs, 
com um número crescente de trabalhos sen- 
do feitos relacionando estes com patologias e 
controlando processos básicos do desenvol- 
vimento. 

0 RNAi, algumas vezes denominado de 
“silenciamento gênico”, é um mecanismo que 
induz a diminuição da expressão genica de um 
transcrito alvo através da clivagem do trans- 
crito alvo e sua posterior degradação, ou 
através da repressão da maquinaria de tra- 
dução. Estes mecanismos são denominados 
também de Silenciamento Gênico Pós-Trans- 
cricional (PTGS - no inglês) (Figura 8-4). Exis- 
tem adicionalmente alguns pequenos RNAs 
que induzem silenciamento gênico em nível 
transcricional, ligando-se em regiões de DNA, 
impedindo sua transcrição. Este mecanismo é 
denominado de Silenciamento Gênico Trans- 
cricional (TGS - no inglês). 

As metodologias de sequenciamento de 
alta eficiência tem auxiliado de maneira con- 
tundente na caracterização de pequenos 
RNAs, sendo que variações de protocolos 
também possibilitaram validar alvos (técnica 
de degradoma) e identificar pequenos RNAs 
associados com proteínas específicas (se- 
quenciamento de ácidos nucleicos associados 
a proteínas imunoprecipitadas). 

Existe uma grande diversidade de pe- 
quenos RNAs em células eucarióticas, sendo 
os principais listados na Tabela 4-4. Dentre 
estas, os microRNAs são a classe de peque- 
nos RNAs melhor descrita. Caracterizam-se 
por serem transcritos a partir de genes MIR, 
geralmente intergênicos, por uma RNA poli- 
merase II, resultando em um pri-miRNA, o 
qual recebe um 5-CAP e um 3-poli-A. Este 
pri-miRNA é processado por um complexo 
proteico, denominado D-body, o qual é or- 
questrado por uma enzima classicamente de- 
nominada DICER ou DROSFIA (RNAses classe 
III), resultando na liberação do pré-miRNA. 
Este apresenta estrutura em forma de gram- 
po devido à alta complementaridade que suas 
extremidades 5' e 3' possuem. 0 pré-miRNA é 
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novamente processado por uma enzima sário uma RNA polimerase dependente de 
DICER, Liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador 
fita, de aproximadamente 20 nucleotídeos de da transcrição e a sequência transcrito alvo 
comprimento, o qual é reconhecido por uma como molde. 0 longo RNA dupla-fita resul- 
enzima ARGONAUTA e direcionado ao PTGS tante é reconhecido também por uma enzima 
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na 

Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt). 
fere aos siRNA (s moti interfering RN As), os Os siRNAs são reconhecidos por enzi- 

quais tem a biogênese bastante variada, po- mas argonautas e podem tanto induzir o si- 
dendo ser derivados de regiões de sobreposi- Lenciamento gênico por PTG5, mas também o 
ção de genes em orientação inversa remodelamento de cromatina, controlando a 
natsiRNAs ( natural anti-sense s moti expressão gênica em nível trancricional (TG5). 
interfering RN As). A transcrição de ambos A interação entre microRNAs e transcrito alvo 
transcritos resulta em uma região de dupla- é a melhor caracterizada, não sendo neces- 
fita complementar, a qual é reconhecida por sário uma complementariedade perfeita entre 
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser 
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe 
damente 24 nt). uma região de maior complementariedade 

Existem também os tasiRNA [trone- denominada seed a qual se Localiza entre a 2 a 
octing 5 moti interfering RN As), derivados do e 7 a bases no microRNA, e está relacionada à 
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans- 
croRNAs. Para a síntese de tasiRNA, é neces- crito alvo. Outra característica é o fato de ha- 


A - Clivagem B - Repressão da T radução 



Figura 8-4: Mecanismo de PTG5. A) divagem: 1, uma proteína argonauta reconhece uma fita do 
pequeno RNA; 2, 0 microRNA associado com uma argonauta reconhece um transcrito alvo; 3, 
ocorre a clivagem do transcrito alvo na posição medial do microRNA; 4, degradação do 
transcrito alvo clivado por nucleases. B) repressão da tradução: 1, uma proteína argonauta 
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece 
um transcrito alvo; 3, ocorre repressão da maquinaria de tradução. 
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Tabela 4-4: Principais classes de pequenos RNAs com função regulatória. 


Classe 

Tamanho (nt) 

Função 

biológica 

Mecanismo de ação 

Origem 

Organismos 

microRNA 
ou miRNA 

21-24 

PTG5 

Clivagem e repressão 
da maquinaria de 
tradução 

Intergênica e íntrons 

Plantas, animais, 
fungos e vírus 

siRNA 

21-24 

PTGS, TGS 

Clivagem, repressão da 
maquinaria de tradução 
e metilação de DNA 

Intergênica, éxons e 
íntrons 

Plantas, animais, 
fungos e vírus 

tasiRNA 

21-22 

PTG5 

Clivagem 

Transcritos alvo de 
microRNAs 

Plantas, animais 
e fungos 

natsiRNA 

21-22 

PTG5 

Clivagem 

Transcritos 

convergentes 

parcialmente 

sobrepostos 

Plantas 


ver pareamento guanina - uracila (G-U), tam- 
bém denominado de wobbte entre o transcri- 
to alvo e o microRNA (Figura 9-4). 

Existem dois desafios principais no em- 
prego da bioinformática a pequenos RNAs. O 
primeiro é relativo à identificação da região, 
ou precursor, que dá origem ao pequeno RNA. 
0 segundo envolve a identificação dos genes 
alvos regulados por estes. As metodologias 
de identificação da região que resulta no pe- 
queno RNA variam com a classe de pequenos 
RNAs e estão intimamente relacionadas às 
suas biogêneses. 

Os microRNAs são a classe melhor ca- 
racterizada, de forma que há uma maior dis- 
ponibilidade de ferramentas para identificação 
destes, como os algoritmos miRTools, 
miRDeep, miRExpress, miRAnalyser e miRCat. 
A funcionalidade geral destes programas se 
baseia na análise de reads de sequenciamento 
de bibliotecas de pequenos RNAs e na delimi- 
tação das regiões de ancoramento com o ge- 
noma. Com base no conjunto de sequências 
ancoradas, são realizados cálculos para ava- 
liação da estabilidade da possível estrutura 
em forma de grampo gerado pelo transcrito. 

Para as demais classes, não existe uma 
metodologia padrão, sendo que variações da 
ferramenta BLA5T são geralmente utilizadas. 
Para a identificar siRNAs, por exemplo, pode- 
se empregar a ferramenta SiLoCo. Mas é 


bastante comum laboratórios que pesquisam 
pequenos RNAs desenvolverem suas próprias 
ferramentas. 

Já os programas de predição de alvos de 
microRNAs e siRNAs podem ser baseadas em 
ferramentas como o BLA5T, procurando re- 
giões complementares ao pequeno RNA. 0 
problema é que esta técnica gera um número 
muito grande de falsos-positivos. Com isso, 
algumas ferramentas começaram a utilizar 
outros aspectos envolvidos na interação entre 
pequenos RNAs e transcritos alvos, tais como 
características energéticas, a presença da re- 
gião s eed (em humanos), o pareamento per- 
feito entre 10-11 pares de base do microRNA 
(válido somente para PTG5, por clivagem) e a 
conservação de microRNAs e transcritos alvo 
em organismos diferentes. 

Mesmo assumindo estas regras, exis- 
tem muitas interações entre microRNA e 
transcrito alvo que são excluídas, e muitas 
falsas que são incluídas, fazendo como que 
seja necessário a validação experimental 
desta interação. Especialmente para organis- 
mos modelo, existem bancos de dados pró- 
prios que disponibilizam, baseados em 
ferramentas de predição, os possíveis alvos 
para um determinado miRNA. Um importante 
banco de dados é o microRNA.org, cujas pre- 
dições foram realizadas pelo algoritmo 
miRanda. 
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MIR gene 
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D-body 

pré-miRNA 

Dicer ou 
drosha 
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miRNA 
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Figura 9-4: Modelo simplificado da biogênese 
de microRNAs. A partir de um gene MIR, um 
pré-miRNA é transcrito e processado num D- 
body, por uma enzima DICER, liberando o prá- 
miRNA, o qual é processado novamente por 
uma enzima DICER, liberando a forma madura 
do miRNA. Este é reconhecido por uma 
enzima argonauta e direcionado ao transcrito 
alvo, induzindo o silenciamento gênico. 

4.6. Conceitos-chave 

Anotação funcional: conjunto de abordagens que 
predizem a função e classificam uma pro- 
teína codificada por um genoma. 

Contig : conjunto de segmentos de DNA com so- 
breposição de sequência que, conjunta- 
mente, representam uma sequência 
consenso de DNA 

Detectores de conteúdo: sistemas para delimi- 
tação de regiões codificantes baseados na 
classificação da sequência em codificante 
ou não codificantes, baseada em cálculos 


estatísticos ou em conservação de se- 
quência. Compreendem detectores extrín- 
secos e intrínsecos. 

Detectores de sinais: sistemas para delimitação 
de regiões codificantes baseados em ca- 
racteres funcionais de genes, como ele- 
mentos canônicos necessários à 
transcrição ou tradução. 

N50: índice associado à qualidade de montagem 
de um sequenciamento. Um valor de N50 
igual a N significa que 50% dos reads es- 
tão montados em um contig de tamanho N 
ou maior. 

ORF: open reading frame ou fase aberta de lei- 
tura. Refere-se a toda sequência nucleotí- 
dica delimitada por um códon de início e 
um códon de término de tradução. 

Predição baseada em evidência: identificação de 
sequências codificantes baseada em ex- 
perimentos prévios, como transcriptomas. 

Predição ab initio: identificação de sequências 
codificantes baseada unicamente em cál- 
culos estatísticos. 

Reads: resultado obtido do sequenciamento de 
um determinado clone ou fragmento de 
DNA/cDNA. 

Sequenciamento por Shotgun: metodologia de 
sequenciamento caracterizado por frag- 
mentação aleatória de um grande seg- 
mento de DNA, determinação individual da 
sequência de cada um dos fragmentos e 
agrupamento dos reads obtidos em 

contigs. 

Sinais transcricionais: sequências conservadas 
associadas ao processo de transcrição, 
como por exemplo TATA box, Sítios de cli- 
vagem e poliadenilação, etc. 

Sinais traducionais: sequências conservadas as- 
sociadas ao processo de tradução, como a 
sequência de Kozak, códon de início de 
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tradução, sítio de ligação de ribossomo, 
etc. 

Transcriptoma: sequenciamento e avaliação ge- 
ral de transcritos de uma célula/tecido 
com o intuito de descrever os RNAs pre- 
sentes naquele momento. Além de trazer 
informações sobre a situação fisiológica 
daquele conjunto de células, permite 
construir modelos para procura de genes 
baseados em evidência. 
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Estabelecimento de relações evolutivas a partir de 
sequências de aminoácidos ou nucleotídeos. 
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5.1. Introdução 

Desde seus primórdios, a humanidade 
se mostrou inclinada a organizar e classificar 
o mundo à sua volta com o objetivo de facili- 
tar o entendimento e a comunicação. Em re- 
lação ao mundo natural, diferentes sistemas 
foram empregados para compor métodos de 
organização e classificar os organismos, utili- 
zando critérios naturais ou artificiais. 

Um dos sistemas de maior influência no 
período pré-Darwiniano foi a Escala Natural 
de Platão. Neste sistema, do fogo ao ser hu- 
mano, diferentes níveis eram organizados à 
maneira de uma escada. A ideia de ascensão 
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estava associada à perfeição, representada 
em sua forma plena pelo homem. O sistema 
classificatório de Lineu, por sua vez, se base- 
ava em características visíveis, arbitraria- 
mente selecionadas para classificar os seres 
vivos (por exemplo, número de patas ou de 
pétalas), sendo o ser humano o organismo do 
topo da cadeia. Sistemas como este são con- 
siderados sistemas artificiais, pois estão su- 
jeitos à tendência de seu autor em considerar 
um caractere em detrimento de outro(s), 
conforme sua vontade ou necessidade. En- 
tretanto, como o próprio Lineu reconheceu, 
tais sistemas foram absolutamente necessá- 
rios para a fase inicial (descritiva) da biologia, 
servindo de base para o sistema natural de 
classificação e para as hipóteses de similari- 
dade que surgiriam a seguir. 

Ao final do século XVIII e início do século 
XIX, surgem os sistemas naturais de classifi- 
cação. Estes buscavam refletir sobre a ordem 
natural dos seres vivos através de poucas 
características intrínsecas, geralmente asso- 
ciadas à forma. No entanto, com o objetivo de 
tornar a classificação mais racional, tomaram 
lugar debates sobre a real necessidade de 
haver um sistema hierárquico de organização 
dos organismos. Opositores da ideia conside- 
ravam que a classificação era, muitas vezes, 
inadequada e desnecessária, e que não deve- 
ria ser um fim em si mesma, senão um mé- 
todo para o levantamento de novas perguntas 
à Biologia. 

Em 1818, a introdução do conceito de 
homologia por E.G. Saint-Hillaire causa uma 
revolução nas ciências biológicas. Para ele e 
seus colegas, partes homólogas correspon- 
diam às partes de animais diferentes com 
uma estrutura essencialmente semelhante, 
mesmo com forma ou função distintas. Por 
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exemplo, as asas de um morce- 
go, as nadadeiras de uma baleia e 
os braços de um macaco, segun- 
do esta lógica, são considerados 
órgãos homólogos e podem ser- 
vir como critério para agrupar 
morcegos, baleias e macacos em 
um mesmo grupo. Assim, a ho- 
mologia serviria como critério 
principal para uma classificação 
natural dos organismos. 

A partir da famosa publi- 
cação de Darwin, “A Origem das 
Espécies”, em 1859, a classifica- 
ção dos organismos passou a ser 
não apenas natural, mas também a apresen- 
tar uma condição essencial de ancestralidade 
comum. Segundo este pensamento, os orga- 
nismos são derivados uns dos outros, desde 
o surgimento da vida na terra. Darwin repre- 
sentou este padrão através de um esquema 
de ramificação, onde os galhos representam 
o tempo entre o organismo ancestral e o no- 
vo organismo, e os nós representam os pró- 
prios organismos. Mais tarde, esta viria a ser 
a primeira árvore filogenética utilizada para 
representar processos evolutivos. 

Com influência direta da teoria evolutiva 
de Darwin (e colaborações de Wallace e 
Lamarck), desenvolve-se a Taxonomia Evolu- 
tiva. Este sistema de classificação incorporou 
o vetor tempo (caráter temporal normal- 
mente inferido por meio de fósseis) e, além 
disto, adicionou uma quantificação da diver- 
gência estrutural entre os grupos (a chamada 
distância patrística). Já em meados do século 
XX, inicia-se a Fenética (taxonomia numérica 
ou neodansoniana). Esta escola buscava in- 
cluir na classificação dos organismos o máxi- 
mo possível de características, 
atribuindo-lhes o mesmo peso na tentativa de 
eliminar qualquer subjetividade ou arbitrarie- 
dade. Seu impacto, entretanto, foi limitado 
devido às dificuldades em traduzir os índices 
(valores) obtidos em informações relevantes 
do ponto de vista biológico (como a separa- 
ção de espécies, por exemplo). Na mesma 
época, surge a Qadística (ou sistemática filo- 
genética), liderada pelo entomólogo alemão 


Willi Hennig. Na proposta de 
Hennig (1950), organismos que 
compartilhassem característi- 
cas derivadas (apomórficas) 
poderiam ser considerados 
descendentes do organismo 
ancestral, na qual a caracterís- 
tica em seu estado primitivo (ou 
ple5iomórfico) passou para o 
estado derivado. 

Desde a origem dos siste- 
mas de classificação até a Cla- 
dística, os métodos 
baseavam-se essencialmente 
no fenótipo dos organismos, ou 
seja, em suas características físicas clara- 
mente discerníveis. Entretanto, com o adven- 
to dos métodos de sequenciamento, tanto 
protéico quanto genômico, cada vez mais os 
dados moleculares foram se tornando im- 
portantes nas análises evolutivas de ances- 
tralidade. Neste sentido, a ciência passa de 
um ponto de vista macroscópico a um ponto 
de vista molecular de análise. 

0 método de sequenciamento de ami- 
noácidos, iniciado por Sanger em 1954, abriu 
caminho para que proteínas de uma mesma 
classe, em diferentes organismos, pudessem 
ser comparadas quanto às suas origens evo- 
lutivas. Da mesma forma, ao decodificar a 
primeira longa sequência de DNA, em 1977, 
Sanger deu início à explosão do sequencia- 
mento de ácidos nucleicos, permitindo a 
comparação de genes em larga escala. É im- 
portante destacar que as sequências molecu- 
lares podem tanto ser comparadas entre si, 
buscando conhecer a história evolutiva de um 
gene ou proteína (por exemplo, relações entre 
hemoglobinas de diferentes mamíferos), 
quanto podem ser associadas a outros dados 
na reconstrução da história evolutiva de or- 
ganismos (por exemplo, associando as rela- 
ções obtidas por comparação de DNA 
ribossomal de aves com datação de fósseis, 
buscando estabelecer relações de ancestrali- 
dade). 

No entanto, ao lidar com sequências 
moleculares, diferentes questões podem 
surgir. Por exemplo, o conceito de gene é di- 



A primeira árvore filogenética 
moderna (esboço de Darwin 
no manuscrito de A Origem 
das Espécies) 
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nâmico e mudou muito desde sua primeira 
definição. Além disso, genes podem sofrer di- 
ferentes processos evolutivos que alteram 
sua estrutura e/ou função, como mutações e 
rearranjos, ou ainda duplicações e perdas de 
função. Esses fatores fazem com que a rela- 
ção 1:1 entre gene e organismo seja perdida. 
Por exemplo, uma mesma leguminosa pode 
possuir duas cópias do gene para a proteína 
leghemoglobina (genes parálogos). Além dis- 
so, muitas sequências do genoma não che- 
gam à etapa de tradução, podendo conter 
elementos regulatórios ou transponíveis. Tais 
variações aumentam a complexidade e difi- 
cultam a interpretação das relações de des- 
cendência. 

5.2. Aplicações 

Ao classificarmos os organismos, atri- 
buímo-lhes uma história evolutiva. Essa his- 
tória, entretanto, é frequentemente 
desconhecida. Sendo assim, é necessário in- 
ferir a sequência de mudanças que levaram 
ao surgimento de um novo organismo ou pro- 
teína. Contudo, existe apenas uma história 
verdadeira, que talvez jamais seja conhecida. 
Assim, ao empregarmos as técnicas filogené- 
ticas, o objetivo é coletar e analisar dados ca- 
pazes de fornecer a melhor estimativa para 
chegarmos à filogenia verdadeira. De certa 
forma, a obtenção de filogenias lembra a atu- 
ação de um historiador. Baseando-se em da- 
dos disponíveis no presente (tais como 
organismos vivos, fósseis e sequências mole- 
culares), tenta-se obter uma imagem de co- 
mo teria sido o passado. 

Quando analisamos sequências de nu- 
cleotídeos ou aminoácidos para inferir uma fi- 
logenia, utilizamos informações derivadas das 
taxas evolutivas para determinar a sequência 
de eventos que levaram ao surgimento de no- 
vos organismos. A taxa de evolução molecu- 
lar refere-se à velocidade na qual os 
organismos acumulam diferenças genéticas 
ao longo do tempo. Essa taxa é frequente- 
mente definida pelo número de substituições 
por sítio (ou posição no alinhamento de se- 
quências) por unidade de tempo e, portanto, 


são usadas para descrever a dinâmica das 
mudanças em uma linhagem ao longo de vá- 
rias gerações. 

As taxas evolutivas são empregadas 
quando se buscam estimativas temporais pa- 
ra datação de eventos evolutivos. Normal- 
mente, se assume que as mudanças nas 
sequências se acumulam a uma taxa mais ou 
menos constante ao longo do tempo. Esse 
conceito é chamado de Hipótese do Relógio 
Molecular. Entretanto, é conhecido que as ta- 
xas evolutivas são dependentes de vários fa- 
tores, tais como o tempo de geração, o 
tamanho da população e do próprio metabo- 
lismo, o que normalmente viola o modelo es- 
trito de relógio molecular. Com base nestas 
informações, diversos modelos foram pro- 
postos para lidar com desvios no comporta- 
mento temporal de diferentes linhagens 
moleculares e, hoje em dia, são referidos co- 
mo relógios moleculares relaxados. 

Atualmente, a inferência filogenética é 
um campo de pesquisa à parte das outras ci- 
ências. Tornou-se uma ferramenta comple- 
mentar para diversas áreas e indispensável 
para outras. Apesar de ter sido idealizada pa- 
ra desvendar apenas as relações evolutivas 
entre organismos, atualmente a filogenética 
molecular é aplicada a problemas muito mais 
diversos que este. Com o advento do relógio 
molecular estrito, foi possível aplicar a esti- 
mativa de tempo às filogenias e datar surgi- 
mento de espécies, disseminação de 
organismos e, até mesmo, entender grandes 
eventos biológicos que ocorreram no passa- 
do. Com a abordagem relaxada do relógio 
molecular, iniciou-se a utilização de modelos 
de dinâmica populacional que comportam os 
eventos coletivos de grupos específicos. Ain- 
da, com o avanço da capacidade de processa- 
mento computacional, vem sendo possível 
criar algoritmos capazes de reconstruir ge- 
nomas ancestrais. Também a partir da filoge- 
nética molecular desenvolveu-se o campo da 
filogeografia. Segundo esta área do conheci- 
mento, as filogenias podem ser utilizadas pa- 
ra verificar a distribuição geográfica de 
indivíduos. Neste contexto, outras técnicas, 
além das filogenias, são incorporadas às aná- 
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Lises, incluindo a estruturação de genes, as 
análises de redes e as análises de haplótipos. 

A filogenia molecular busca inferir a his- 
tória evolutiva de organismos ou outras enti- 
dades biológicas (como proteínas e genes) a 
partir de sequências de ácidos nucleicos ou 
aminoácidos. Ao investigar as relações entre 
diferentes espécies, análises de genes ribos- 
somais são comumente empregadas, pois in- 
dependentemente da espécie ou do 
organismo, os indivíduos possuirão genes co- 
dificantes de RNA ribossômico. Em contra- 
partida, quando se busca compreender as 
relações entre diferentes enzimas de uma 
mesma família é necessário utilizar sequênci- 
as de aminoácidos, e não de nucleotídeos. Em 
determinadas situações, o genoma completo 
pode ainda ser utilizado para inferir a filoge- 
nia. Este é o caso de diversos vírus, especial- 
mente quando se busca compreender a 
origem de novas variantes ou a disseminação 
de uma cepa. O alvo de estudo (isto á, se- 
quência de nucleotídeos ou aminoácidos, gene 
ou genoma) depende, exclusivamente, do ob- 
jetivo da análise e é um dos principais fatores 
a ser definido primariamente pelo pesquisa- 
dor. 

Atualmente, as filogenias funcionam co- 
mo importantes ferramentas para diferentes 
áreas do conhecimento, incluindo as áreas de 
evolução, genética, epidemiologia, microbio- 
logia, virologia, parasitologia, botânica e zoo- 
logia, dentre outras. Adicionalmente, de 
maneira inédita, a inferência filogenética foi 
utilizada como evidência para a resolução de 
crime e principal prova durante um impasse 
internacional envolvendo diferentes países. 
Em resumo, dependendo do objetivo, os mé- 
todos de construção de filogenias (inferência 
filogenética) são a base para diversas áreas e 
importantes objetos para o avanço computa- 
cional na análise de dados biológicos. 

5.3. Representação de árvores 

A Filogenética (termo obtido por união 
dos termos gregos para tribo e origem) é a 
ciência que busca reconstruir a história evolu- 
tiva dos organismos, levando em conta as se- 


quências de nucleotídeos ou aminoácidos. As 
hipóteses sobre a história evolutiva são o re- 
sultado dos estudos filogenéticos e se cha- 
mam Filogenia. 

As filogenias ou árvores filogenéticas 
representam o contexto evolutivo dos orga- 
nismos de forma gráfica. São formadas por 
nós (pontos) Ligados por diversos ramos (li- 
nhas) (Figura 1-5). Os nós terminais, mais ex- 
ternos na filogenia, identificam os indivíduos, 
genes ou proteínas que foram amostrados e 
incluídos na análise filogenética. Geralmente 
representam o alvo de estudo do pesquisador 
e estão ligados aos nós mais internos na filo- 
genia através de traços horizontais, chama- 
dos de ramos terminais (Figura 1-5). 

Os nós internos, pelo contrário, repre- 
sentam indivíduos não amostrados. Eles 
identificam uma inferência evolutiva do an- 
cestral comum mais recente dos ramos deri- 
vados daquele nó e se ligam a nós cada vez 
mais internos, através dos ramos internos. 
Por exemplo, na Figura 1-5, os grupos de nós 
terminais representados em verde possuem 
como ancestral comum o nó laranja, mais in- 
terno, enquanto os nós terminais azuis pos- 
suem como ancestral comum o nó lilás. Da 
mesma forma, o nó vermelho é a represen- 
tação do indivíduo, gene ou proteína mais an- 
cestral da filogenia que, através de processos 
evolutivos, deu origem aos nós laranja e lilás. 

0 tamanho dos ramos horizontais pode 
ter diferentes significados, dependendo do 
método para inferência da filogenia, conforme 



Figura 1-5: Nomenclatura associada a árvores 
filogenéticas. 
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veremos a seguir. No entanto, os ramos re- 
presentados na vertical (Figura 1-5) não ex- 
pressam qualquer significado, e seu tamanho 
não altera em nada a idéia filogenética. Como 
a análise pode ser feita em diferentes níveis, 
utilizando dados moleculares de genes, pro- 
teínas, indivíduos, espécies, gêneros, famílias, 
ou qualquer outro taxon, os nós terminais são 
amplamente denominados OTUs ( operotionoi 
taxonomicai units), ou unidades taxonômicas 
operacionais (também chamados de folhas, 
Figura 2-5). A ordem e disposição exata das 
OTUs em uma filogenia é denominada topolo- 
gia. 



/ 

Figura 2-5: Árvore dicotômica dos grupos de 
vertebrados. As OTUs (nós terminais) estão 
representadas por ícones (peixes 
pulmonados, anfíbios, mamíferos, tartarugas, 
lagartos e serpentes, crocodilos e aves). 
Observe que o grupo dos répteis é 
parafilético (destacado em vermelho). 0 
grupo seria considerado monofilético se 
incluísse as aves. 

Além da forma gráfica, as árvores fiLogenáticas po- 
dem também ser descritas na forma textual. Em vez 
do diagrama com linhas e pontos, as relações evoluti- 
vas são representadas por notações com parênteses. 
A estrutura da árvore da Figura 2-5, por exemplo, po- 
de ser descrita linearmente como (Peixes pulmonados, 
(Anfíbios, (Mamíferos, (Tartarugas, (Lagartos, (Croco- 
dilos, Aves)))))) ou (Peixes pulmonados + (Anfíbios + 
(Mamíferos + (Tartarugas + (Lagartos + (Crocodilos + 
Aves)))))). Estas notações foram desenvolvidas para 
utilização computacional da informação filogenética. 
Algoritmos e programas que realizam análises mole- 
culares necessitam da informação na forma textual e, 
quando necessário, fornecem a saída para o usuário na 
forma gráfica. 


Partindo do princípio de derivação evo- 
lutiva, onde um organismo dá origem a outro 
(ou outros), podemos reconhecer dois princi- 
pais processos na representação de filogeni- 
a5: derivação dicotômica e derivação 

politômica. No primeiro caso, cada nó interno 
dá origem a apenas dois ramos. Para espéci- 
es, por exemplo, a ramificação de um ances- 
tral comum em dois ramos evidencia o 
processo de especiação. No segundo caso, 
três ou mais ramos surgem de um mesmo nó 
interno. 

Apesar de árvores dicotômicas serem mais comuns 
e normalmente esperadas, em alguns casos, como a 
dispersão explosiva do HIV e do HCV, árvores politômi- 
cas representam melhor o processo evolutivo. Casos 
como estes, onde um ancestral comum origina simul- 
taneamente várias linhagens descendentes, são cha- 
madas de politomias verdadeiras ( hard polytomies). 
Por outro lado, as politomias falsas ( soft polytomies ) 
são casos onde a topologia não foi bem resolvida por 
não haver certeza do padrão de ancestralidade, tor- 
nando múltipla uma divisão que se esperaria ser for- 
mada por uma série de divisões dicotômicas. 

Assim, ao agruparmos as OTUs segun- 
do a sua ancestralidade, podemos reconhecer 
diferentes padrões: grupos monofiléticos, pa- 
rafiléticos e polifiléticos (Figura 2-5). Os gru- 
pos monofiléticos incluem todos os membros 
descendentes de um único ancestral, assim 
como o próprio ancestral. Na Figura 2-5, por 
exemplo, as aves e os crocodilos são consi- 
derados um grupo monofilético, pois com- 
partilham o mesmo ancestral comum. Da 
mesma forma, as aves, os crocodilos e os la- 
gartos também podem ser considerados um 
grupo monofilético, pois se originaram de um 
mesmo ancestral. A análise das relações en- 
tre os grupos, neste caso, dependerá do ob- 
jetivo do pesquisador. Adicionalmente, os 
grupos monofiléticos podem ser denomina- 
dos ciados por agruparem duas ou mais se- 
quências que são descendentes de um 
mesmo ancestral (Figura 3-5a e b). A organi- 
zação da topologia em que um ciado está 
contido em outro é comumente chamada de 
ciados aninhados ou ciados embutidos (Figu- 
ra 3-5c). 

Os grupos parafiléticos, por sua vez, se 
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Figura 3-5: (a) Exemplos de ciados 

destacados em verde, (b) Exemplos de 
organizações da topologia que não 
caracterizam a existência de um ciado, 
destacados em laranja, (c) Diferentes níveis 
de ciados que podem estar embutidos em um 
ciado de maior ordem. Observe que os ciados 
de diferentes ordens, quando embutidos, 
formam ciados monofiléticos. 

originam de um único ancestral, mas nem to- 
dos os organismos derivados deste ancestral 
fazem parte do grupo. Na Figura 2-5, os rép- 
teis são um grupo formado pelas tartarugas, 
lagartos e crocodilos, e seu ancestral comum 
está na base do ramo que dá origem às tarta- 
rugas. No entanto, este ancestral comum 
também deu origem às aves e, por isso, os 
répteis não podem ser considerados um gru- 
po monofilático, mas um grupo parafilético. 

Finalmente, os grupos polifiláticos pro- 
vêm de dois ou mais ancestrais diferentes. 
Nestas relações se encontram OTUs que 
apresentam características comuns, mas que 
possuem diferentes ancestrais comuns. Por 
exemplo, a condição endotármica (animais 
que mantém a sua temperatura corporal 
constante) é apenas apresentada por aves e 
mamíferos. Por este critério, poderíamos 
agrupar estes dois grandes grupos sem, no 
entanto, compartilharem o mesmo ancestral 
comum direto (Figura 2-5). A organização 


destes grupos permite descrever caracterís- 
ticas resultantes de convergência evolutiva, 
pois uma mesma característica se desenvol- 
veu independentemente em diferentes gru- 
pos. 

Sabendo das relações evolutivas entre 
os táxons e da existência de ancestrais co- 
muns, as árvores podem ser representadas 
de maneira a evidenciar o ancestral mais an- 
tigo (árvore com raiz ou enraizada), ou apenas 
destacar as relações evolutivas entre os tá- 
xons, sem destacar qual a OTU mais ances- 
tral (árvore sem raiz ou não enraizada) 
(Figura 4-5). 

A raiz da filogenia é a espécie ou se- 
quência ancestral a todo o grupo que está sob 
análise. Quando presente, a raiz aplica uma 
direção temporal à árvore, permitindo obser- 
var o sentido das mudanças evolutivas da raiz 
(mais antigo) aos ramos terminais (mais mo- 
dernos). Uma árvore não enraizada, pelo 
contrário, reflete apenas a topologia estabe- 
lecida entre as OTUs, sem indicar o ancestral 
do grupo. Árvores não enraizadas podem ser 
confusas, e sua interpretação requer mais 
cuidado devido à facilidade em cometer erros 
de análise (Figura 4-5). 


Árvore enraizada 

X Z Y W K 



Y 



Figura 4-5: Comparação de árvores (a) 
enraizadas e (b) não enraizadas. No primeiro 
caso, é possível definir a direção das 
mudanças evolutivas, devido à presença do 
vetor tempo dado pela presença da raiz. 
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A identificação de uma raiz nas filogeni- 
as geralmente requer a inclusão de uma ou 
diversas OTUs que representem grupos ex- 
ternos. Os grupos externos devem ser an- 
cestrais comuns das OTUs em estudo, já 
conhecidos, que indicarão caracteres presen- 
tes em organismos mais próximos aos an- 
cestrais, provendo um direcionamento para a 
interpretação dos processos evolutivos. Para 
o caso do estudo de HIV, por exemplo, é co- 
mum que os vírus da imunodeficiência de sí- 
mios (SIV) sejam utilizados como grupo 
externo nas filogenias, pois sabidamente es- 
tes vírus deram origem ao HIV. 

A adição de grupos externos aumenta o número de 
topologias diferentes que uma filogenia pode assumir. 
0 número de árvores possíveis varia com o número de 
OTUs e com a presença ou ausência de raiz. Para mais 
de duas OTUs, a quantidade de possíveis árvores com 
raiz é sempre maior que o número de árvores sem raiz. 
A possibilidade de inferência de diferentes topologias 
para os mesmos dados moleculares ressalta a extre- 
ma variabilidade de cenários possíveis na busca do 
verdadeiro evento evolutivo. É importante também 
ressaltar que, assim como a complexidade, o tempo 
computacional envolvido na construção das filogenias 
aumenta exponencialmente com o aumento de OTUs. 

Em relação à topologia das árvores, a 
inversão de ramos derivados de um mesmo 
nó não altera a relação evolutiva apresentada 
pela árvore (Figura 5-5). Nesse sentido, a ár- 
vore filogenática pode ser comparada a um 
móbile: cada peça suspensa á livre para girar 
em seu eixo, ficando mais próxima ou mais 
distante espacialmente das outras peças, sem 
alterar a estrutura geral do objeto. Indepen- 
dentemente da posição destas OTUs, após o 
giro dos ramos, o mesmo ancestral comum 
será identificado e, por isso, não há qualquer 
alteração no significado da filogenia. 

Quanto à nomenclatura de árvores filo- 
genéticas, diferentes termos são emprega- 
dos, tais como cladogramas, filogramas e 
dendrogramas (Figura 6-5). Um cladograma 
é uma árvore simples, que retrata as relações 
entre os nós terminais. Pelo contrário, uma 
árvore aditiva (árvore métrica ou filograma) 
apresenta informações adicionais, pois o 
comprimento dos ramos é proporcional a al- 





& c* 






Figura 5-5: A porção terminal da árvore dos 
vertebrados (representada na Figura 2-5) foi 
rearranjada de diferentes maneiras (as setas 
indicam o ponto de rotação). Conforme a 
analogia de um móbile, todas elas 
representam a mesma relação evolutiva. 

gum atributo, como quantidade de mudança. 
Por sua vez, uma árvore ultramétrica (ou 
dendrograma) constitui um tipo especial de 
filogenia devido aos seus ramos serem equi- 
distantes da raiz. Os dendrogramas podem, 
desta forma, retratar o tempo evolutivo. É 
importante ressaltar que alguns autores de- 
nominam qualquer filogenia como cladogra- 
ma, o que pode ser confuso. 
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filograma 


* 


c. 


dendrograma 



X 


+ 

d. 

X 


Figura 6-B: Nomenclatura de árvores 

filogenéticas. Observe que os cladogramas a 
e b são equivalentes, mas o filograma ceo 
dendrograma d não o são. 

0 tipo de dado molecular a ser empre- 
gado nas análises também deve ser levado 
em conta. Sequências de aminoácidos são 
mais conservadas que sequências de ácidos 
nucleotídeos em decorrência da degeneração 
do código genético. São, portanto, úteis em 
análises de produtos de genes ou espécies 
que visam entender fenômenos que aconte- 
ceram há amplos períodos de tempo evoluti- 
vo. Além disso, por formarem um conjunto de 
pelo menos 20 membros (contra quatro 
membros presentes em DNA ou RNA), sua 
variação pode ser mais significativa. 

A despeito desta diferença no volume 
de informação, com a popularização do se- 
quenciamento de ácidos nucleicos, especial- 
mente DNA, sequências de nucleotídeos 
passaram a ser as mais empregadas em es- 
tudos de filogenia. Ácidos nucleicos são mais 
propensos a alterações, podendo sofrer tran- 
sições (quando ocorre a troca de uma purina 
por outra purina, ou de uma pirimidina por 
outra pirimidina) e transversões (quando 
ocorre a troca de uma purina por uma pirimi- 
dina ou vice-versa), além de inserções ou de- 
leções de pares de base que interferem no 
quadro de leitura. Essa variabilidade pode ser 
interessante no estudo de eventos mais re- 


centes do ponto de vista evolutivo. 

É preciso, assim, conhecer o caso de 
estudo e o tipo de pergunta que se busca 
responder com cada filogenia. Ao lidarmos 
com genes de diferentes espécies, por exem- 
plo, é importante saber da existência e dispo- 
sição de íntrons, da necessidade de lidar com 
o gene inteiro ou apenas parte dele ou da ne- 
cessidade de incluir regiões regulatórias para 
a análise. 

Um exemplo recente da aplicação de 
análises filogenéticas está no caso da identi- 
ficação da origem da linhagem do vírus influ- 
enza H1N1, envolvido no surto de gripe de 
2009. Para tanto, Smith e colaboradores 
empregaram genomas completos de influen- 
za isolados de diferentes localidades e hos- 
pedeiros, e construíram árvores filogenéticas 
para cada uma das oito regiões do genoma 
buscando identificar a fonte de cada rearranjo 
presente no vírus envolvido no surto. Por 
meio das árvores obtidas, foi possível rastre- 
ar a contribuição genética dos vírus isolados 
de aves, suínos e humanos (Figura 7-5). As- 
sim, o emprego da filogenia neste trabalho 
permitiu não apenas caracterizar o vírus do 
ponto de vista molecular, como também re- 
construir a história evolutiva do agente etio- 
lógico de uma pandemia. 

5.4. Distância genética 

A formulação de modelos evolutivos é 
uma maneira de descrever matematicamente 
os processos que moldam as mudanças nas 
sequências de nucleotídeos ou aminoácidos 
dos organismos ao longo do tempo. Do ponto 
de vista molecular, estas mudanças podem 
ser resultado de diferentes forças evolutivas 
que reorganizam a sequência e a própria es- 
trutura dos genes. 

Um modelo geral para descrever de 
maneira eficaz estas alterações evolutivas 
deveria considerar os processos de substitui- 
ção, inserção, deleção e duplicação, bem co- 
mo ocorrência de transposição ou até mesmo 
de retrotransposição. Contudo, apesar de es- 
tes fenômenos serem claros agentes na mo- 
delagem dos genomas, matematicamente 
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Figura 7-5: Representação esquemática das recombinações que originaram o vírus Influenza 
envolvido no surto de gripe suína em 2009. Diferentes linhas representam diferentes regiões 
do genoma do vírus. Observe a interação entre vírus de origens aviária, suína e humana em 
eventos que datam, pelo menos, desde 1990. Os eventos de recombinação e as análises 
temporais foram baseadas em análises filogenéticas (Adaptado de Smith e colaboradores, 
Origins ond evolutionary genomics of the 2009 s wine-origin H1N1 inftuenzo A epidemic. Noture, 
459, 1122-1125, 2009). 


ainda não é factível colocá-los como compo- 
nentes de modelos que expliquem inteira- 
mente o processo evolutivo. 

Assim, devido à grande relevância dos 
mecanismos de substituição para a evolução 
dos genomas em diferentes organismos e da 
disponibilidade de modelos de probabilidade 
estatística que expliquem este processo, as 
trocas têm sido o principal alvo para o de- 
senvolvimento de modelos matemáticos e 
compõem a base de diversos métodos de in- 
ferência filogenética. 

Após a divergência de duas sequências a 
partir de seu ancestral comum, de forma di- 
cotômica, fenômenos evolutivos garantirão 


as mudanças nas sequências de nucleotídeos 
de forma independente (Figura 8-5). Uma 
medida tradicional para expressar o número 
de substituições de nucleotídeos que se acu- 
mularam nas sequências desde a divergência 
é chamada de distância genética. Esta infor- 
mação é uma medida quantitativa da dissimi- 
laridade genética entre diferentes OTUs, e 
permite estabelecer uma estimativa relativa 
da quantidade de mudanças que ocorreram 
desde a divergência. 

A distância é também um importante 
conceito na construção de filogenias, pois está 
diretamente relacionada com a relação evo- 
lutiva entre duas OTUs: uma menor distância 
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1 ^GGACGGGGTC 

Sequência Derivada 1 

ivjGGGCGGGGCC 

n A . Sequência Derivada 2 

k 0 tempo t ^ 

_ Zp TGGGACGGGGCC 

Sequência Derivada 1 

TGGGACGGGGCC<^ 

Sequência Ancestral 

^TGGAACGGGGCC 

Sequência Derivada 2 

Figura 8-5: Após a divergência de dois 
organismos a partir de seu ancestral comum, 
seus genomas acumularão diferenças 
independentemente, (a) A medida da 
dissimilaridade genética entre duas 
sequências homólogas ao longo do tempo é 
chamada de distância genética, e a relação 
temporal entre duas sequências divergentes 
é dada por 2t. (b) A ocorrência de múltiplas 
substituições ao longo do tempo na 
divergência de sequências homólogas pode 
mascarar as verdadeiras diferenças entre as 
sequências. Apesar de ocorrerem dois 
eventos de mutação na sequência derivada 1, 
apenas o último evento é observado, pois 
ocorreram no mesmo sítio. Os quadrados em 
vermelho evidenciam as diferenças em 
relação às sequências ancestrais. 

genética indica uma relação evolutiva mais 
próxima, enquanto que um valor maior sugere 
uma derivação evolutiva proporcionalmente 
maior. Tipicamente, a informação da distância 
genética é incorporada à inferência filogenéti- 
ca na definição do tamanho dos ramos. No 
entanto, além desta informação é necessária 
uma escala de distância que especifique o nú- 
mero de mudanças que ocorreram ao longo 
do ramo. 

0 método mais simplista para avaliar a 
distância genética entre duas sequências é 
conhecido como distância p. Este método é 
baseado na contagem das diferenças dividida 
pelo número total de sítios do alinhamento. 
Se oito sítios são diferentes entre duas se- 


quências homólogas com tamanho de 100pb, 
a distância p obtida será 0,08. Este resultado 
reflete a porcentagem de sítios diferentes em 
relação ao tamanho total da sequência, e ge- 
ralmente é utilizado na especificação da es- 
cala de distância das filogenias (Figura 8-5). 

A variação genética em um determinado 
sítio pode decorrer de diferentes processos e 
resultar em mais de uma substituição. As 
múltiplas substituições, ou multiple hits, 
ocorrem naturalmente e podem subestimar o 
verdadeiro número de mudanças no cálculo 
da distância p, já que “escondem” as diversas 
trocas de nucleotídeos ou aminoácidos. Na 
Figura 8-5b, por exemplo, apesar de ocorre- 
rem duas substituições no mesmo sítio ao 
longo de um dos ramos, aparentemente a se- 
quência derivada parece ter sofrido somente 
um evento evolutivo. Sendo assim, a relação 
entre as diferenças nas sequências e o tempo 
decorrido da divergência nem sempre é linear, 
especialmente devido à ocorrência das múlti- 
plas substituições em um mesmo sítio. 

Devido à ineficácia da distância p em 
efetivamente estimar a distância genética en- 
tre duas sequências, diferentes modelos pro- 
babilísticos foram desenvolvidos para 
descrever as mudanças entre os nucleotídeos 
e corrigir a distância observada. Tais modelos 
implicam no uso de diversas suposições sim- 
ples a respeito das probabilidades de substi- 
tuição de um nucleotídeo por outro, mas 
garantem uma aproximação da realidade 
quando sustentadas por uma taxa de muta- 
ção fidedigna. 

Estas técnicas de correção são comu- 
mente conhecidas por modelos de substitui- 
ção (ou matrizes de substituição), e garantem 
a conversão da distância observada em medi- 
das de distâncias evolutivas próximas da rea- 
lidade, permitindo reconstruir a história 
evolutiva dos organismos. 

Diversos modelos de substituição foram propostos 
para explicar as trocas de nucleotídeos em sequências 
de DNA, reduzindo a complexidade do processo evolu- 
tivo a um padrão de mudança simples que consegue 
ser explicado através de poucos parâmetros. Todos 
estes modelos, no entanto, de alguma forma são inter- 
relacionados, diferindo principalmente no número de 


90 


5. Filogenia Molecular 



parâmetros utilizados para explicar estas substitui- 
ções. Devido à influência do modelo de substituição na 
inferência de filogenias, a escolha de um método parti- 
cular deve ser justificada. A estratégia mais simples é 
utilizar os modelos que comportam o maior número de 
variáveis, embora a complexidade não esteja direta- 
mente relacionada à melhor qualidade de análise das 
sequências. Com o aumento de parâmetros, o sistema 
se torna mais complexo, aumentando a probabilidade 
de erro e exigindo um maior processamento computa- 
cional. Assim, é necessário verificar os alinhamentos 
caso-a-caso para atribuir o melhor modelo de substi- 
tuição na inferência filogenética. 

A substituição de nucleotídeos ou aminoácidos em 
uma sequência é usualmente modelada sob a forma de 
um processo quase aleatório. Devido ao caráter dinâ- 
mico desta aleatoriedade, é necessário enquadrar as 
substituições, seguindo certos pressupostos. Assim, as 
substituições são descritas por um processo de Mar- 
kov homogêneo, onde a probabilidade de substituição 
de um nucleotídeo X pelo Y não depende do estado 
prévio do nucleotídeo X. 

As probabilidades de mudança de um nucleotídeo 
para outro (ou de um aminoácido para outro) são es- 
pecificadas através de uma matriz 4x4 das taxas de 
substituição (ou 20x20 no caso dos aminoácidos) que 
especificam com qual taxa cada um dos nucleotídeos 
ou aminoácidos poderá mudar para outro. É necessário 
assumir também que os eventos de substituição sejam 
independentes ao longo dos sítios das sequências, e 
ainda, possuam um caráter reversível. Além disso, de- 
vem especificar a frequência estacionária dos nucleotí- 
deos, ou frequência de equilíbrio, onde será atribuída a 
provável proporção de cada um dos caracteres na se- 
quência. 

Para sequências de nucleotídeos, o modelo de 
substituição mais simples foi proposto por Jukes e 
Cantor em 1969 (JC69). Segundo este modelo, as mu- 
danças entre os nucleotídeos podem ocorrer com a 
mesma probabilidade, assumindo uma frequência es- 
tacionária igual para todos (cada nucleotídeo tem 25% 
de chance de ocorrer na sequência). 

Com o advento da publicação das primeiras se- 
quências de genoma mitocondrial, na década de 1980, 
se observou que as transições eram muito mais co- 
muns que as transversões. Devido à uniformidade do 
método proposto por Jukes e Cantor, foi necessário 
criar um modelo que acomodasse essas diferenças. 

Assim, o modelo proposto por Kimura (K80 ou K2P) 


cria as variáveis a e (3 para representar, respectiva- 
mente, as taxas de transição e de transversão. Apesar 
da inclusão de dois parâmetros, as frequências de 
equilíbrio se mantêm constantes em V 4 para cada nu- 
cleotídeo. Em 1981, Kimura adiciona um terceiro parâ- 
metro (y) ao modelo já proposto, passando a ser 
identificado como K3P. A atualização do modelo permi- 
tiu dividir as taxas de transversão em duas variáveis. 

Alguns genomas apresentam uma grande quanti- 
dade de guaninas e citosinas em relação a timinas e 
adeninas. Se algumas bases são mais frequentes que 
outras, será esperado que algumas substituições 
ocorram com mais frequência que outras. 0 modelo 
criado por Felseinstein (F81) acomoda essas observa- 
ções e permite que as proporções individuais de cada 
nucleotídeo (frequência estacionária) sejam diferentes 
de V4. É importante ressaltar que este modelo conside- 
rará a mesma proporção de bases em todas as se- 
quências envolvidas no alinhamento. Se diferentes 
sequências possuem diferente composição de bases, a 
pressuposição principal do modelo será violada. 

0 modelo HKY85, proposto por Hasegawa, Kishino 
e Yano, essencialmente mistura os modelos K2P e F81. 
Além de supor que a frequência das bases é variável, 
este modelo permite que transições e transversões 
ocorram com taxas diferentes. 

Posteriormente, o modelo GTR ( generalised time- 
revers/ble), o mais complexo dos modelos aqui apre- 
sentados, foi desenvolvido a partir do HKY85 com o in- 
tuito de acomodar diferentes taxas de substituição e 
diferentes frequências de bases. Este modelo requer 
seis parâmetros para taxa de substituição e quatro pa- 
râmetros para a frequência das bases, misturando to- 
dos os modelos aqui descritos. 

Atualmente, além destes mais de 200 modelos de 
substituição podem ser aplicados a alinhamentos de 
nucleotídeos. Alguns programas, como Modeltest e 
Jmodeltest, são capazes de selecionar o modelo de 
substituição que melhor se ajusta a um dado alinha- 
mento. 

Uma importante extensão desses modelos de 
substituição incorpora a possibilidade de variação nas 
taxas evolutivas entre os sítios, permitindo ao modelo 
mais realismo. Assim, para cada sítio no DNA será atri- 
buída uma probabilidade de evolução a uma taxa conti- 
da em um intervalo discreto de probabilidades. 0 
método que garante a heterogeneidade de taxas evo- 
lutivas é modelado através de uma distribuição gama 
(r), que considera um número específico de taxas de 
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evolução para os sítios do DNA. 

A aplicabilidade deste modelo nas inferências filo- 
genáticas é facilitada pela simplicidade do método, já 
que apenas um único parâmetro (a) controla a forma 
da distribuição gama. Quando a < 1, existe um grande 
número de taxas de evolução entre os sítios das se- 
quências em análise, ou seja, quanto maior a, menor a 
heterogeneidade. Algumas vezes, uma proporção de 
sítios invariáveis (i), no qual uma determinada propor- 
ção de sítios é assumida como incapaz de sofrer subs- 
tituição, pode também ser usada para modelar a 
heterogeneidade entre os sítios. 

Ao contrário dos modelos de substituição de nucle- 
otídeos, os modelos que explicam as trocas de amino- 
ácidos são tradicionalmente empíricos. A partir da 
análise de alinhamentos de proteínas com identidade 
mínima de 85% Dayhoff, em 1970, desenvolveu uma 
série de matrizes de probabilidade que explicavam as 
mudanças de aminoácidos ao longo do tempo. 

As matrizes PAM, como ficaram conhecidas, cor- 
respondem a modelos de evolução nos quais os ami- 
noácidos são substituídos aleatoriamente e 
independentemente, de acordo com uma probabilidade 
predefinida que depende do próprio aminoácido. 

Em 1992, um novo modelo de substituição de ami- 
noácidos é criado por Henikoff e Henikoff. A análise de 
sequências de proteínas distantes evolutivamente, 
possibilitada pelo modelo de Henikoff-Henikoff, estabe- 
leceu as bases para a criação das matrizes BLOSUM. 
As matrizes desta série foram identificadas por núme- 
ros (por exemplo, BL05UM62) que se referem à por- 
centagem mínima de identidade dos blocos dos 
aminoácidos utilizados para construir o alinhamento. 
Matrizes similares, como GONNET e JTT, surgiram na 
mesma época. 

Em 1996, foi proposto um modelo de substituição 
específico para proteínas codificadas pelo DNA mito- 
condrial, onde foi observado desvio de transições entre 
aminoácidos em relação às proteínas codificadas pelo 
material genético nuclear. Essa matriz, criada por 
Adachi e Hasegawa, foi chamada de mtREV. 

Finalmente, em 2001, Whelan e Goldman propõem 
a matriz WAG, baseada em combinação e ampliação de 
vários modelos de substituição anteriores. Tal matriz é 
considerada superior às suas antecessoras para des- 
crever filogenias de proteínas globulares. 


5.5. Inferência filogenética 

A reconstrução filogenática, ou seja, a 
reconstrução da história evolutiva de orga- 
nismos, é um complexo processo que envolve 
uma série de etapas. 0 alinhamento, além de 
ser o primeiro passo, é um importante ponto 
para a inferência de filogenias (ver capítulo 3). 
Um alinhamento preciso, além de garantir 
maior confiabilidade nas análises posteriores, 
é requerido por todos os métodos de inferên- 
cia filogenética para construção da árvore. 

Depois que o alinhamento foi proposto, 
diversos métodos podem ser usados para 
estimar a filogenia das sequências estudadas. 
Podemos dividir estes métodos em dois prin- 
cipais grupos: métodos quantitativos e méto- 
dos qualitativos (Tabela 1-5). Estes grupos 
diferem na forma como os dados são trata- 
dos, refletindo diretamente como os dados do 
alinhamento serão inicialmente processados. 

Os métodos quantitativos se baseiam na 
quantidade de diferenças entre as sequências 
do alinhamento para calcular uma árvore fi- 
nal. Já os métodos qualitativos constroem di- 
versas filogenias que são classificadas 
seguindo uma determinada qualidade (crité- 
rio). A filogenia que obtiver o maior valor as- 
sociado à tal qualidade será a filogenia 
resultante. 

Os métodos quantitativos compreen- 
dem os métodos de distância. Estes métodos 
convertem o alinhamento em matrizes de 
distância par-a-par para todas as sequências 
incluídas. Dentro destes algoritmos desta- 
cam-se dois métodos principais: UPGMA e 
aproximação dos vizinhos. Devido à grande 
eficiência computacional, estes métodos ge- 
ralmente são utilizados para construção de 
uma filogenia inicial, que posteriormente é 
submetida a algum método do grupo qualita- 
tivo. Como principal ponto negativo, estes 
métodos apresentam apenas uma filogenia 
como resultado final (ver adiante). 

Idealmente, todas as possíveis árvores 
para um dado alinhamento deveriam ser ana- 
lisadas para garantir a escolha da melhor fi- 
logenia. Para isso, é necessário atribuir certos 
parâmetros que avaliem, dentre todas as ár- 
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Tabela 1-5: Comparação entre os tipos de métodos para inferência de filogenias. 


Tipo 


Método 


Princípio 


Programa 


Métodos 

Quantitativos 


UPGMA 


Agrupa sequencialmente as OTUs com 
menor distância evolutiva entre si 


Busca a árvore com a menor 

Aproximação dos vizinhos 50ma total de ram05 


Geneious 

MEGA 

MEGA 

Geneious 

HyPhy 


Máxima Parcimônia 


Busca a filogenia com menor número de 
eventos evolutivos 


PAUP 

MEGA 

Mesquite 


Métodos 

Qualitativos 


Máxima Verossimilhança 


Busca a árvore com o valor de maior 
verossimilhança entre todas as filogenias 
construídas 


PAUP 

PAML 

phyML 

MEGA 


Amostra um número representativo de Mr. Bayes 
Estatística Bayesiana filogenias a partir do espaço amostrai total BEAST 

de árvores e busca a mais provável BAMBE 


vores, aquela que explica as relações evoluti- 
vas de forma mais precisa. 

Assim, os métodos qualitativos envol- 
vem algoritmos que atribuem um critério de 
otimização para escolher a melhor filogenia. 
Nestes métodos, diversas filogenias são 
construídas e, seguindo um critério definido 
pelo algoritmo utilizado, uma filogenia será 
identificada como a que melhor explica a re- 
lação evolutiva entre os OTUs. O critério é 
utilizado para atribuir um valor a cada filoge- 
nia e ordená-las segundo este valor. 

Estes métodos têm a vantagem de re- 
querer uma função explícita para escolha das 
filogenias, sendo portanto independente da 
escolha do operador. No entanto, devido ao 
caráter de sua análise, são métodos mais re- 
finados e intrinsecamente mais demorados 
computacionalmente. Três critérios de otimi- 
zação são tradicionalmente empregados na 
inferência de filogenias: (a) Máxima Parcimô- 
nia, (b) Máxima Verossimilhança e (c) Inferên- 
cia Bayesiana. 

Por se tratarem de métodos que buscam uma única 
filogenia entre diversas árvores, os métodos qualitati- 
vos exigem algoritmos que vasculhem o maior número 
possível de filogenias em busca da melhor árvore. Dois 
grupos de algoritmos são destacados: os algoritmos 
exatos e os algoritmos heurísticos. Atualmente, devido 


ao tempo e à exigência computacional, os métodos 
heurísticos são preferidos aos exatos. No entanto, 
qualquer um deles pode ser aplicado aos métodos 
qualitativos de inferência filogenética. Como desvanta- 
gem dos métodos qualitativos, repetidos processos de 
procura em um mesmo conjunto de sequências podem 
levar a resultados diferentes, dependendo da árvore 
que é construída inicialmente pelo algoritmo. 

Os métodos exatos buscam todas as filogenias 
possíveis para um grupo de sequências. 0 funciona- 
mento destes métodos geralmente envolve a seleção 
aleatória inicial de três OTUs para a construção de uma 
árvore filogenética não enraizada. Por tentativa, um a 
um, novas OTUs, também tomadas aleatoriamente do 
alinhamento, são inseridas em diferentes posições na 
árvore. Esse procedimento é repetido até todos os tá- 
xons serem inseridos, garantindo que todas as filogeni- 
as possíveis para o alinhamento dado sejam geradas. 

A partir da aplicação de um critério de otimização 
(dado pelo método qualitativo) para classificar as filo- 
genias e ordená-las segundo este valor, é possível or- 
ganizar um espaço virtual que contém todas as 
filogenias possíveis para o alinhamento empregado. É 
importante lembrar que, tomando poucas sequências, 
milhões de árvores podem ser geradas. Este conjunto 
total de filogenias é comumente chamado de espaço 
amostrai. Como exemplo, podemos organizar o espaço 
amostrai de filogenias originadas a partir de um ali- 
nhamento de dez sequências em um gráfico bidimensi- 
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onal baseado no valor atribuído pelo critério de otimi- 
zação a cada árvore (Figura 9-5). Nestas condições, 
será possível observar que algumas árvores possuem 
valores maiores que outras, formando picos que agru- 
pam as melhores filogenias. Da mesma forma, entre 
diferentes picos existem vales representados por ár- 
vores com valores menores e, portanto, menos con- 
sistentes. 



Figura 9-5: Descrição de parte do espaço 
amostrai das possíveis filogenias para um 
determinado sistema, ordenadas segundo um 
valor atribuído pelo critério de otimização. 
Cada ponto no gráfico representa uma 
topologia diferente inferida a partir de um 
conjunto de dez sequências homólogas. 0 
espaço amostrai, neste caso, é definido por 
2. 027. 025 filogenias e apresenta, segundo o 
critério de otimização, dois máximos locais e 
um máximo global, que contém as melhores 
filogenias. Em destaque, algumas filogenias 
exemplificando as possibilidades de arranjo 
dos ramos. A seta indica a mudança de 
topologia da filogenia e o consequente 
aumento de seu valor dado pelo critério de 
otimização. 

Os métodos de busca exaustiva construirão um es- 
paço amostrai de árvores através de métodos especí- 
ficos de modificação das filogenias. Por acumularem 
um grande número de resultados, estes métodos exi- 
gem um tempo computacional muito elevado, por ve- 
zes tornando-se proibitivos. 

Os algoritmos de busca heurística procuram pela 
melhor filogenia em um subconjunto de todas as filo- 
genias possíveis. Apesar de serem muito mais rápidos 


computacionalmente, estes métodos não garantem 
que a filogenia correta seja encontrada, pois apenas al- 
gumas árvores do espaço amostrai total serão consi- 
deradas. Ainda assim, estes métodos tem mostrado 
grande eficiência. 

Atualmente, os principais métodos qualitativos de 
inferência filogenética incorporam algoritmos de busca 
heurística para amostrar as filogenias do espaço 
amostrai virtual. Usualmente, estes algoritmos de 
busca são executados em dois passos. Primeiramente, 
diferentes árvores são construídas e, após encontrar a 
melhor árvore guiada por um critério de otimização, 
aplica-se um algoritmo para modificar aleatoriamente 
o arranjo dos ramos. Este método permite testar se 
outros arranjos são ou não mais consistentes. 

Devido ao grande número de métodos 
para inferência filogenética, a decisão quanto 
ao uso de cada um é de grande importância 
para a interpretação do resultado final: a filo- 
genia. Ao escolher um método, é fundamental 
verificar o poder (tamanho e quantidade de 
sequências necessária para resolver a filoge- 
nia), a eficiência (habilidade de estimar a filo- 
genia correta com um número limitado de 
dados), a consistência (habilidade de estimar a 
filogenia correta com um número de dados 
ilimitado) e a robustez (habilidade de estimar 
a filogenia correta quando certos pressupos- 
tos da análise são violados). 

Até o momento, não existe um método 
que apresente todas estas características si- 
multaneamente e garanta a reconstrução fi- 
logenética correta. É importante, sobretudo, 
conhecer a biologia do organismo (ou dos or- 
ganismos) em questão para que a escolha do 
método tenha, além de tudo, uma justificativa 
biológica. 

5.6. Abordagens quantitativas 

UPG MA 

0 método baseado em distâncias 
UPGMA ( unweighted pair-group method using 
arithmetic averages, ou método de agrupa- 
mento par a par usando médias aritméticas 
não ponderadas) foi proposto por Sneath e 
Sokal, em 1973, e é o método mais simples 
para reconstrução filogenética. 0 UPGMA 
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parte do pressuposto de que todas as Linha- 
gens evoluem a uma taxa constante (hipótese 
do relógio molecular). 

No UPGMA, uma medida de distância 
evolutiva é computada para todos os pares de 
sequências utilizando um modelo evolutivo. 
Após, estas distâncias são organizadas na 
forma de uma matriz, conforme ilustrado 
abaixo: 

Sequências 

2 
3 


dj 2 

djj 


d 


2,3 


4 

5 


d 


1,4 


d 


1,5 


d 


2,4 


d 


2,5 


1 3,4 


1 3,5 


* 4,5 


0 agrupamento das sequências é inicia- 
do pelo par com menor distância. Supondo 
que dj 2 seja a menor distância no exemplo 
acima, as sequências 1 e 2 são agrupadas 
com um ponto de ramificação na metade 
dessa distância [d 12/2 ). As sequências 1 e 2 são 
então combinadas em uma entidade compos- 
ta, agora denominada y, e a distância entre 
esta entidade y e as outras sequências é 
computada (observe abaixo). 

Sequências y (U) 3 4 

3 d y3 


uma nova sequência composta. 0 mesmo 
procedimento é repetido até que existam 
apenas duas sequências a serem agrupadas 
(comumente, uma sequência simples e uma 
entidade composta). 

Ao empregar sequências de DNA ou 
proteína proximamente relacionadas, o 
UPGMA pode construir duas ou mais “árvores 
empatadas” (t/e trees). Essas árvores surgem 
quando dois ou mais valores de distância na 
matriz se mostram idênticos. É possível re- 
presentar todas as árvores empatadas, mas 
essa abordagem é pouco útil, uma vez que 
tais árvores são muito semelhantes e surgem 
por erros de estimativa das distâncias. Para 
tais casos, sugere-se apresentar uma única 
árvore, geralmente a árvore consenso do 
bootstrap (ver seção 5.8). 

Por se basear na hipótese do relógio 
molecular, o UPGMA pode Levar à obtenção de 
topologias falsas quando tal hipótese não for 
satisfeita pelos dados. Sabe-se que o método 
é muito sensível a variações nas taxas evolu- 
tivas entre linhagens, fato este que Levou a 
proposição de métodos onde as variações são 
ajustadas para a obtenção de sequências que 
satisfaçam o relógio molecular. Apesar disso, 
devido ao surgimento de métodos mais ro- 
bustos e mais eficientes em lidar com dados 
não uniformes, o UPGMA encontra-se prati- 
camente abandonado como alternativa para 
reconstrução filogenética. 


4 


d. 


y.4 


d 


3,4 


Aproximação dos Vizinhos 


Supondo que d y3 seja a menor distância, 
y e 3 são combinados em uma nova entidade 
composta, digamos, z. Seu ponto de ramifica- 
ção é calculado Levando em conta a distância 
de cada membro de y (l e 2) em relação a 3 e 
dividindo por 2, ou seja, ( d 13 +d 23 )/2 . 0 mesmo 
procedimento se repete, calculando a menor 
distância entre z e outra sequência (suponha- 
mos que seja a sequência 4 ). Calculam-se a 
distância de cada membro de z até 4 , divide-se 
o somatório das distâncias por dois e cria-se 


0 método de aproximação dos vizinhos 
(neighbor joining ou NJ) foi proposto por 
Saitou e Nei em 1987. Este método se baseia 
em um aceleramento dos algoritmos de evo- 
lução mínima que existiam até então. Em sua 
versão original, estes algoritmos buscavam a 
árvore com menor soma total de ramos, de 
maneira que todas as árvores possíveis pre- 
cisavam ser construídas para que se verifi- 
casse qual delas apresentava a menor soma. 
0 algoritmo de NJ facilitou esse processo, 
tendo o princípio de evolução mínima implícito 
no processo e produzindo apenas uma árvore 
final. 
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Para construir a filogenia, o NJ começa 
por uma árvore totalmente não resolvida (to- 
pologia em estrela) (Figura 10-5). Tendo como 
base uma matriz de distâncias (semelhante à 
matriz inicial construída pelo método de 
UPGMA) entre todos os pares de sequências, 
construída a partir da aplicação de um modelo 
de substituição (conforme descrito na seção 
5.4), o par que apresentar a menor distância é 
identificado, unido por um nó (que represen- 
tará o ancestral comum deste par de se- 
quências) e incorporado na árvore (na Figura 
10-5,/ e g são unidos pelo nó u). As distâncias 
de cada sequência do par são recalculadas 
em relação ao novo nó u, assim como as dis- 
tâncias de todas as outras sequências são re- 
calculadas em relação ao novo nó u. O 
algoritmo reinicia, substituindo o par de vizi- 
nhos unidos pelo novo nó e usando as distân- 
cias calculadas no passo anterior. 

Quando duas somatórias de ramos são 
iguais, a decisão sobre quais ramos unir de- 
pende do programa empregado. Alguns op- 
tam pela primeira sequência apresentada no 
arquivo de dados, enquanto outros escolhem 
aleatoriamente qual dos pares deve ser unido 
primeiro. Árvores empatadas (t/e trees) são 
raras com o uso de NJ, e recomenda-se o 
emprego da árvore consenso do bootstrap 
(ver seção 5.8) para evitá-las. Uma variação 
do algoritmo NJ, o BIONJ tem se mostrado li- 
geiramente melhor que o NJ em casos pontu- 
ais; no entanto, conserva o mesmo princípio 
do algoritmo. 


5.7. Abordagens qualitativas 

Parcimônia 

O princípio de parcimônia foi proposto 
por Guilherme de Occam (ou William of 
Ockham) no século XVII. Occam defendia que 
a natureza é por si só econômica e opta por 
caminhos mais simples. 0 pensamento se es- 
palhou por diversas áreas do conhecimento e, 
atualmente, seu princípio é conhecido como 
Navalha de Occam. 

Flistoricamente, a parcimônia teve um 
papel muito importante no estabelecimento 
da disciplina de filogenética molecular. Desde 
1970, foi o critério de otimização mais utiliza- 
do para inferência de filogenias. 

Contudo, atualmente a máxima parci- 
mônia foi substituída por outros métodos, 
como máxima verossimilhança e inferência 
Bayesiana devido, principalmente, às simplifi- 
cações nos processos evolutivos assumidas 
pelo método e, sobretudo, nas limitações de 
seu uso. Apesar disso, a máxima parcimônia 
ainda está integrada ao campo da inferência 
filogenética por ser um método rápido e, em 
alguns casos, muito efetivo. 

A aplicação do princípio de máxima par- 
cimônia nas reconstruções filogenéticas é 
conceitualmente simples: dentro de um con- 
junto de filogenias, aquela filogenia que apre- 
sentar o menor número de eventos evolutivos 
(substituições) deve ser a mais provável para 
explicar os dados do alinhamento. 



Figura 1Ü-5: Começando com uma árvore em estrela (a), a matriz de distâncias é calculada para 
identificar o par de nós a ser unido (nesse caso,/ e g). Estes são unidos ao novo nó u (b). A 
porção em vermelho é fixada e não será mais alterada. As distâncias do nó u até os nós a-e são 
calculadas e usadas para unir o próximo vizinho. No caso, u e e são unidos ao recém criado nó v 
(c). Mais duas etapas de cálculo levam à árvore em (d) e então à árvore em (e), que está 
totalmente resolvida, encerrando o algoritmo. 
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Metodologicamente, o critério de parci- 
mônia deve determinar a quantidade total de 
mudanças na filogenia, descrevendo o tama- 
nho dos ramos. Adicionalmente, a parcimônia 
guia a busca, entre todas as árvores possí- 
veis, daquela filogenia que minimiza os passos 
evolutivos de forma máxima sendo, portanto, 
a filogenia de máxima parcimônia. 

Assim que uma determinada filogenia é 
proposta, o método calculará as probabilida- 
des de mudanças dos nucleotídeos desde os 
ramos terminais até os ramos mais ances- 
trais da árvore. Por se tratar de um método 
qualitativo, a parcimônia considera cada sítio 
do alinhamento individualmente e calcula as 
probabilidades de ocorrência dos quatro nu- 
cleotídeos nos táxons ancestrais. 

Devido ao caráter probabilístico do mé- 
todo, é necessário que certas pressuposições 
sejam estabelecidas para especificar o custo 
de substituição dos nucleotídeos. A forma 
mais simples do método (Parcimônia de 
Wagner) assume que as substituições de nu- 
cleotídeos tem custo 1, enquanto que a não 
alteração não é penalizada (Figura 11-Ba). No 
entanto, esquemas um pouco mais complexos 
que levam em consideração as questões bio- 
lógicas envolvidas no processo evolutivo fo- 
ram propostas. Um esquema comum de 
matriz com custo desigual, proposto para es- 
pecificar as transições e as transversões, leva 
em consideração a diferença na probabilidade 
de mudança entre purinas e pirimidinas (Figu- 
ra 11-5b). Comumente, a matriz é especificada 
sem que constem os respectivos nucleotíde- 
os, no entanto, por convenção são atribuídos 
nas linhas e colunas em ordem alfabética (A, 
C, G e T). 

Para o método de parcimônia, apenas 
sítios variáveis são considerados informati- 
vos. Estes sítios devem apresentar dois ca- 
racteres diferentes presentes em, no mínimo, 
dois indivíduos (Figura 12-5b). Aqueles sítios 
que não apresentam variação ou apresentam 
autapomorfias (caracter diferente presente 
em apenas um indivíduo) serão descartados 
automaticamente das análises. 

Devido ao tamanho dos alinhamentos e ao número 
de OTUs incluídas para a inferência de filogenias, foi 


a. 


Matriz de 
custo igual 


A C 

A [o 1 
C 1 0 
G 1 1 
T 1 1 


G T 

1 1 
1 1 
0 1 
1 0 


b. 


Matriz de 
custo desigual 


A 

C 

G 

T 


A C 

0 4 
4 0 

1 4 
4 1 


G T 

1 4 
4 1 
0 4 
4 0 


Figura 11-5: Matrizes de custo aplicadas ao 
método de máxima parcimônia para penalizar 
as substituições de um nucleotídeo por outro, 
(a) Matriz de custos iguais para todas as 
mudanças entre nucleotídeos. (b) Matriz de 
custo desigual, considerando a maior 
probabilidade de ocorrência de transições em 
relação às transversões ao longo do 
processo evolutivo. 


necessário que algoritmos fossem desenvolvidos para 
acelerar os cálculos na busca pela árvore de máxima 
parcimônia. Algoritmos de programação dinâmica são 
capazes de lidar com a atribuição de custos e realizar 
os devidos cálculos para escolha da filogenia com o 
menor custo. Diversos algoritmos foram desenvolvi- 
dos, embora a parcimônia de Sankoff, desenvolvida em 
1975, tenha se tornado uma das mais populares. 

Após a atribuição de uma matriz de 
custo e a proposição de uma filogenia, o al- 
goritmo utilizará cada um dos sítios informa- 
tivos do alinhamento independentemente 
para cálculo dos custos (Figura 11-5). 

Considere a matriz desigual da Figura 11- 
5b e a filogenia inicialmente proposta na Fi- 
gura 12-5a. 0 esquema demonstra que para 
cada sítio informativo será construída uma fi- 
logenia com a mesma topologia da árvore 
proposta em 12-5a (ver adiante). 

Tomando, por exemplo, o sítio 28, iden- 
tificamos a presença de três ancestrais não 
amostrados que, no entanto, para o cálculo 
dos custos, terão que ter seus caracteres in- 
feridos. Segundo o algoritmo de Sankoff, os 
cálculos devem iniciar tomando os ciados 
mais derivados (isto é, mais recentes). Em 12- 
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a. 


b. 




Sítio não informativo 
i 


seq 01 TGGGACGGGGCCATGCAAGGATGTCAGTAC 
seq 02 TGGGACGGGGCCATGCAAGGATGTCAGTAC 
seq 03 TGG TC AGGACCACGT AC AC ATGTC AGC AC 
seq 04 TGG C GG CCi GC TT TGT GCAC 




4 + 4 = 8 


0+0=0 4+4=8 


1 + 1=2 



' 

- C/T 


Figura 12-5: Determinação dos custos de substituição pelo método de parcimônia para um sítio 
do alinhamento de nudeotídeos. (a) Topologia da filogenia proposta para quatro táxons (ver 
adiante), (b) Alinhamento de nudeotídeos de quatro sequências homólogas. Destacados em 
cinza estão os sítios informativos para o método de parcimônia. Os demais sítios são 
considerados não informativos e serão descartados durante os cálculos, (c) Cálculo dos custos 
para os dois ciados presentes na filogenia proposta em “a”. 0 método supõe que a posição “Y” 
possa ser ocupada por qualquer um dos quatro nudeotídeos. (d) Exemplo do procedimento 
adotado pelo método, supondo que a posição “X” na filogenia foi ocupada pelo nucleotídeo A. É 
necessário considerar todas as possibilidades de caracteres nos sítios ancestrais e calcular os 
respectivos custos, (e) Arranjo de menor custo para a posição 28 do alinhamento de 
nudeotídeos. 


5c, a posição “Y” da filogenia necessariamen- 
te foi ocupada por um dos quatro nucleotíde- 
os. Em cada uma das proposições (A, C, G ou 
T), o custo associado à substituição é consul- 
tado na matriz. No primeiro caso, a hipótese 
para ocupação da posição “Y” é A. 0 custo da 
substituição em cada um dos ramos deve ser 
verificado e somado. Por exemplo, a substi- 
tuição de A por T possui custo 4. Como a 
mesma substituição ocorreu em dois ramos 
diferentes, somamos o custo total, que tota- 


liza 8. 0 mesmo procedimento será repetido 
considerando os outros três nudeotídeos na 
posição “Y”. 

Após o cálculo dos custos para as posi- 
ções “Y” e “Z”, é necessário verificar os cus- 
tos de substituição de “X” para “Y” e “X” para 
“Z”. A Figura 12-5d apresenta a primeira hi- 
pótese para ocupação da posição “X”: o nu- 
cleotídeo A. Aqui, o algoritmo somará os 
custos de substituição de todos os ramos, 
novamente considerando cada um dos quatro 
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nucleotídeos na posição “X”, mas também 
considerando a variação nas posições “Y” e 
“Z”. A Figura 12-5e identifica a filogenia com o 
menor custo para o sítio 28. Note que o ca- 
ractere mais ancestral pode ser tanto o nu- 
cleotídeo T quanto C. Os mesmos cálculos 
serão realizados para todos os sítios do ali- 
nhamento, tomando a topologia dada em 12- 
5a e, ao final, os menores custos para cada 
sítio serão somados para encontrar o tama- 
nho dos ramos da árvore. A árvore que pos- 
suir os ramos mais parcimoniosos será 
tomada como a árvore de máxima parcimô- 
nia. 

Computacionalmente, o cálculo dos ta- 
manhos de ramos mais parcimoniosos não é 
um problema. 0 desafio da maioria dos mé- 
todos de reconstrução filogenética está na in- 
ferência da topologia. Assim como no método 
de máxima verossimilhança, discutido a se- 
guir, o método de máxima parcimônia contará 
com algoritmos heurísticos para arranjo das 
topologias. A filogenia é então proposta pelo 
algoritmo, e o critério de parcimônia avalia a 
árvore. A partir de perturbações realizadas 
nesta topologia, uma nova topologia é pro- 
posta e novamente o critério qualifica a filo- 
genia. 

Apesar de velozes, os métodos de par- 
cimônia falham ao estimar a relação evolutiva 
entre um grande número de táxons, especial- 
mente se diferentes linhagens possuem taxas 
evolutivas variáveis ou taxas evolutivas muito 
rápidas. Nestes casos, é comum que o méto- 
do agrupe incorretamente os táxons com 
maiores taxas de evolução, levando à infe- 
rência da filogenia errada (atração de ramos 
longos). 

Ainda, por não ter um modelo de subs- 
tituição especificado, o método de parcimônia 
é incapaz de considerar mutações reversas ou 
múltiplas substituições. Métodos que geram 
diferentes hipóteses a partir do alinhamento, 
considerando as observações biológicas na 
seleção do modo de substituição dos nucleo- 
tídeos e, assim, lidam com eventos aleatórios 
de probabilidade, substituíram o uso da máxi- 
ma parcimônia e, atualmente, são os princi- 
pais métodos utilizados para a inferência de 


filogenias. 

Máxima Verossimilhança 

Idealmente, os métodos de inferência 
filogenética devem resgatar o máximo de in- 
formações contidas em um dado conjunto de 
sequências homólogas, buscando desvendar a 
verdadeira história evolutiva dos organismos. 

Quando um grande número de mudan- 
ças evolutivas em diferentes linhagens é de- 
masiadamente desigual, o método de máxima 
parcimônia tende a inferir filogenias inconsis- 
tentes, proporcionalmente convergindo à ár- 
vore errada quanto maior o número de 
sequências no alinhamento. Assim, abre-se 
espaço para uma técnica de inferência filoge- 
nética mais robusta, que alie as informações 
do alinhamento a um modelo estatístico ca- 
paz de lidar com a probabilidade de mudança 
de um nucleotídeo para outro de maneira 
mais completa. 

Dentro do campo da filogenética com- 
putacional, o método de máxima verossimi- 
lhança primeiramente ocupou este espaço e, 
desde então, tem sido amplamente utilizado 
devido à qualidade da abordagem estatística 
empregada. 

A implementação de uma concepção 
estatística para a máxima verossimilhança, 
originalmente desenvolvida para estimar pa- 
râmetros desconhecidos em modelos proba- 
bilísticos, se deu entre 1912 e 1922 através 
dos trabalhos de A. R. Fisher. 

Apesar de utilizado para dados molecu- 
lares na década de 1970, o método de máxi- 
ma verossimilhança só se tornou popular na 
área da filogenética a partir de 1981, com o 
desenvolvimento de um algoritmo para esti- 
mar filogenias baseadas no alinhamento de 
nucleotídeos. Atualmente, diversos progra- 
mas implementam este método para realizar 
a inferência filogenética, incluindo PAUP, ME- 
GA, PHYLIP, fastDNAml, IQPNNI e METAPIGA, 
dentre outros (Tabela 1-5). 

0 objetivo principal do método da máxi- 
ma verossimilhança é inferir a história evolu- 
tiva mais consistente com relação aos dados 
fornecidos pelo conjunto de sequências. Neste 
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modelo, a hipótese (topologia da árvore, mo- 
delo de substituição e comprimento dos ra- 
mos) é avaliada pela capacidade de predizer 
os dados observados (alinhamento de se- 
quências homólogas). Sendo assim, a veros- 
similhança de uma árvore é proporcional à 
probabilidade de explicar os dados do alinha- 
mento. Aquela árvore que com maior proba- 
bilidade, entre as outras árvores possíveis, 
produz o conjunto de sequências do alinha- 
mento, é a árvore que reflete a história evo- 
lutiva mais próxima da realidade, mais 
verossímil e, por isso, de máxima verossimi- 
lhança. 

É importante ressaltar que diferentes 
filogenias podem explicar um determinado 
conjunto de sequências, algumas com maior 
probabilidade e, outras, com menor probabi- 
lidade. No entanto, a soma das verossimi- 
Ihanças de todas as árvores possíveis para 
um determinado conjunto de sequências nun- 
ca resultará em 1, pois não estamos lidando 
com as probabilidades de que estas filogenias 
estejam corretas, mas avaliando a probabili- 
dade de explicarem o alinhamento que foi 
fornecido. 

Se, por exemplo, aplicássemos o méto- 
do de máxima verossimilhança para inferir a 
árvore filogenética de um grupo de sequênci- 
as homólogas que incluem porções recombi- 
nantes, encontraríamos uma árvore 
filogenética com um determinado valor de 
verossimilhança. A utilização do método, por 
si só, garantiria como resultado a inferência 
de uma filogenia. No entanto, sabemos que 
esta árvore, apesar de ser a mais plausível 
para explicar o alinhamento dado, não tem 
qualquer relação com a realidade evolutiva do 
organismo, já que eventos de recombinação 
aconteceram no decorrer do tempo e impe- 
dem a explicação sob a forma dicotômica de 
uma filogenia. 

A aplicação do método de máxima ve- 
rossimilhança exige a construção de uma fi- 
logenia inicial, geralmente obtida por métodos 
quantitativos. Como exemplo, considere a ár- 
vore filogenética proposta inicialmente e o 
respectivo alinhamento de nucleotídeos da 
Figura 13-5. Para calcularmos a verossimi- 


lhança desta filogenia será necessário utilizar 
um modelo evolutivo, que será importante 
para atribuir valores e parâmetros às substi- 
tuições e ajudará no cálculo da probabilidade 
de que uma sequência X mude para uma se- 
quência Y ao longo de um segmento da árvo- 
re. 

Dado um determinado modelo evolutivo 
(JC69, K2P, F81, HKY ou GTR, por exemplo), e 
assumindo que cada sítio do alinhamento 
evolui de maneira independente dos demais, 
podemos calcular o valor de verossimilhança 
para cada um destes sítios e, posteriormente, 
multiplicar os valores de cada sítio para en- 
contrar a verossimilhança da árvore dada (Fi- 
gura 13-5 e a Figura 14-5). Sítios que 
apresentam deleções serão eliminados da 
análise. 

Como os nós internos destas árvores, 
geradas a partir de cada sítio do alinhamento, 
são a representação de OTUs não amostra- 
dos (isto é, ancestrais) e, por conseguinte, não 
se conhecem suas sequências de nucleotíde- 
os, será necessário considerar a ocorrência 
de todos os nucleotídeos (A, T, C e G) nestas 
posições da árvore (Figura 13-5c). 

Por certo, alguns cenários são mais 
prováveis que outros; no entanto, todos de- 
vem ser considerados durante os cálculos de 
verossimilhança, pois apresentam alguma 
probabilidade de terem gerado as sequências 
dadas no alinhamento. Adicionalmente, além 
de calcular a probabilidade de todas as mu- 
danças possíveis para cada um dos sítios do 
alinhamento (Figura 13-5c), a expressão ma- 
temática da verossimilhança ainda incluirá o 
tamanho dos ramos, dentre outros elementos 
do modelo de substituição, como um fator 
determinante para o cálculo (Figura 13-5d). 

A probabilidade de ocorrência de cada um dos qua- 
tro nucleotídeos no nó mais interno da árvore será 
igual à respectiva frequência estacionária dada pelo 
modelo de substituição, já que este parâmetro especi- 
fica a proporção esperada de cada um dos quatro nu- 
cleotídeos. No modelo de Jukes e Cantor, por exemplo, 
assume-se que os quatro nucleotídeos ocorrem em 
proporções iguais de 25%. 

Conforme o exemplo da Figura 13-5d, a equação 
utilizada para calcular a verossimilhança da filogenia 
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proposta no sítio 28, inicialmente, leva em considera- 
ção a frequência estacionária do nucleotídeo G, já que 
este é o nucleotídeo que está sendo considerado como 
presente no nó mais ancestral da árvore. A probabili- 
dade de este G ser substituído por um A ( P GA ), ou per- 
manecer G (P GG ) será dada pelo modelo de substituição 
escolhido. Da mesma forma, serão os casos P GV P AC 
(repetido duas vezes cada pelo fato de existirem dois 
ramos terminais com o mesmo nucleotídeo). 

0 tamanho dos ramos entre dois nós será multipli- 
cado pelas probabilidades de substituição dos nucleotí- 
deos, levando em conta variações em parâmetros do 
modelo de substituição. Apesar da dificuldade de cál- 


culo computacional, os algoritmos aplicados à inferên- 
cia filogenática (baseados no princípio de Pulley) auto- 
maticamente estimarão o tamanho de cada ramo de 
modo que este maximize o valor da verossimilhança da 
árvore filogenática em construção. Nestes casos, o al- 
goritmo atribui diversos valores de distância para um 
ramo e, a cada valor, verifica a verossimilhança da ár- 
vore, buscando aqueles valores que resultam na filo- 
genia com a maior verossimilhança. 

A probabilidade de observar os dados em um sítio 
particular é a soma das probabilidades de todos os 
possíveis nucleotídeos que poderiam ser observados 
nos nós internos da árvore (Figura 13-5c). 0 número de 
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Figura 13-5: Esquema do cálculo da verossimilhança para uma filogenia e seu respectivo 
alinhamento de nucleotídeos. (a) Árvore filogenática proposta inicialmente para o alinhamento 
em “b”. (b) Para cada posição do alinhamento é destacada a organização dos quatro sítios do 
alinhamento na árvore proposta em “a”. Como exemplo, apenas o sítio do alinhamento 
destacado em cinza será considerado para o cálculo da verossimilhança. Os quadrados pretos, 
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente, 
os nucleotídeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64 
possíveis combinações de nucleotídeos nos nós internos da árvore, já que estes representam os 
sítios de táxons ancestrais não amostrados ( P ^ P YV P^, P zc ). (d) O esquema para o cálculo da 
máxima verossimilhança leva em conta a multiplicação do tamanho dos ramos (t lt t 2 , t 3 , t 4 , t 5 e t 6 ) 
pelas respectivas probabilidades de transição (P GG , P Gr P GA e P AC ), além da frequência 
estacionária dos quatro nucleotídeos no nó mais ancestral (ji z ). 
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nós internos rapidamente se torna muito grande com o 
aumento do número de OTUs. Felizmente, através de 
um algoritmo criado por Felseinstein (algoritmo de 
“poda”), que se aproveita da própria topologia da filo- 
genia, esses cálculos podem ser realizados de uma 
maneira computacionalmente eficiente. 

Neste processo, propõe-se que os cálculos da ve- 
rossimilhança de uma determinada árvore sejam feitos 
a partir de sub-árvores dos ramos terminais em dire- 
ção aos nós internos, semelhante ao algoritmo usado 
para o cálculo da parcimônia. No entanto, quando apli- 
cado este método à inferência por máxima verossimi- 
lhança é necessário garantir que os modelos de 
substituição, não presentes no método de máxima 
parcimônia, sejam reversíveis, ou seja, que a probabili- 
dade de mudança de A para T (P AT ) seja a mesma que T 
para A ( P TA ). A introdução deste método permitiu que 
as análises de verossimilhança pudessem ser aplicadas 
a grandes conjuntos de sequências, de forma mais rá- 
pida e efetiva. 

Ao final, multiplicamos os valores de verossimi- 
lhança de todos os sítios e encontramos o valor de ve- 
rossimilhança da árvore (Figura 14-5): 

A expressão matemática acima indica que a veros- 
similhança (7) é igual à multiplicação (77) das probabili- 
dades de cada sítio i (Z>, calculado conforme Figura 
13-5), dada a árvore filogenética (topologia, modelo 
evolutivo e tamanho dos ramos). Aquela árvore que ti- 
ver o maior valor de verossimilhança entre todas as 
árvores possíveis para um determinado alinhamento 
de sequências será a árvore que melhor explica o ali- 
nhamento e, por isso, a árvore de máxima verossimi- 
lhança. Por fim, é importante ressaltar que, apesar de 
estarmos avaliando nucleotídeos neste exemplo, o 
mesmo raciocínio poderia ser aplicado para a inferência 
filogenética para um alinhamento de aminoácidos. 

Até o momento vimos, em linhas gerais, 
como realizar o cálculo de verossimilhança 
para uma dada filogenia (Figura 13-5). No en- 
tanto, outra função importante dos métodos 
computacionais de inferência filogenética é 
apontar a topologia e encontrar a árvore de 
máxima verossimilhança entre todas as ár- 
vores possíveis para o conjunto de dados. In- 
felizmente, não existem algoritmos que 
garantam a localização da árvore real devido 
ao grande espaço amostrai de árvores possí- 
veis (Figura 9-5). 

Após uma árvore ser construída, é ne- 
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Figura 14-5: Cálculo da máxima 

verossimilhança de uma dada filogenia, 
considerando seu respectivo alinhamento de 
nucleotídeos contendo quatro táxons e 30 
bases (Figura 13-5b). Para cada sítio (L 01 , L 02 , 
.... L 30 ) será calculado um valor de 

probabilidade que envolve a consideração de 
todos os quatro nucleotídeos em cada um 
dos ramos ancestrais da filogenia. Pos- 
teriormente, os valores de verossimilhança 
de cada sítio serão multiplicados para 
encontrar a verossimilhança total da filo- 
genia. 

cessário calcular sua verossimilhança e com- 
parar este valor com todas as árvores já 
construídas. Como é impossível testar a ve- 
rossimilhança para todas as filogenias possí- 
veis, os algoritmos de máxima 
verossimilhança incluirão buscas heurísticas 
para solucionar este problema (estes méto- 
dos construirão diferentes filogenias a partir 
do mesmo conjunto de dados do alinhamen- 
to). 

Na problemática das filogenias, diferen- 
tes programas têm proposto as mais diver- 
sas alternativas para avaliar o maior número 
de árvores do espaço amostrai total e en- 
contrar aquela com o maior valor de verossi- 
milhança. No entanto, como regra geral, a 
maioria dos programas de máxima verossi- 
milhança segue alguns passos comuns: 

i) Uma filogenia preliminar com deter- 
minada topologia é construída (geral- 
mente são utilizadas árvores 
construídas pelo método de aproxima- 
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ção de vizinhos); 

ii ) Os parâmetros para esta árvore são 
modificados buscando maximizar a ve- 
rossimilhança (em alguns casos, a filo- 
genia vai sendo construída pela adição 
de novos táxons aleatoriamente). Para a 
modificação da filogenia, os algoritmos 
podem implementar técnicas de rear- 
ranjos de ramos, conforme descrito em 
5.4; 

Ui) 0 valor de máxima verossimilhança 
para esta árvore é armazenado; 

iv ) Outras topologias são construídas e 
seus parâmetros também são avalia- 
dos; 

v) Finalmente, a filogenia que possuir o 
valor de máxima verossimilhança será a 
melhor estimativa evolutiva para o dado 
conjunto de sequências. 

Embora estes processos simplifiquem 
os verdadeiros fenômenos biológicos que go- 
vernam a evolução de uma sequência, apre- 
sentando assim dificuldades em identificar a 
árvore com o maior valor de verossimilhança, 
eles são normalmente robustos o bastante 
para estimar as relações evolutivas entre tá- 
xons. 

Como estes métodos implicam em en- 
contrar a árvore com o valor máximo de ve- 
rossimilhança entre todas as árvores 
amostradas, o resultado final sempre forne- 
cerá apenas uma filogenia, ao contrário dos 
métodos Bayesianos que serão vistos a se- 
guir. Cabe ressaltar que, devido ao uso de di- 
ferentes algoritmos, na prática, um mesmo 
conjunto de sequências submetido a diferen- 
tes programas para inferência filogenética 
por máxima verossimilhança dificilmente re- 
sultará na mesma árvore. Por isso, é neces- 
sário ser cauteloso ao interpretar árvores 
geradas pelo método de máxima verossimi- 
lhança. 

Análises Bayesianas 

A estatística Bayesiana nasceu com a 
publicação de um ensaio matemático do re- 
verendo Thomas Bayes, em 1793. Nesta pu- 


blicação, o reverendo apresenta o desenvol- 
vimento de um método formal para incorpo- 
rar evidências prévias no cálculo da 
probabilidade de acontecimento de determi- 
nados eventos. 

Inicialmente, este método foi aplicado 
apenas no campo da matemática e, só a partir 
de 1973, passa a ser incorporado no pensa- 
mento biológico e na inferência filogenética. 
Com o advento de diversos programas de 
acesso livre para realizar a inferência de filo- 
genias por estatística Bayesiana, o método se 
difundiu e, atualmente, tornou-se um campo 
de estudo específico dentro da filogenética 
computacional. 

A inferência Bayesiana engloba o méto- 
do de máxima verossimilhança (Tabela 2-5) 
mas, adicionalmente, inclui o uso de informa- 
ções dadas o príori. Estas informações refle- 
tem características a respeito da filogenia, do 
alinhamento ou dos táxons, que o pesquisa- 
dor sabe de antemão. 

Entre os principais parâmetros que po- 
dem ser conhecidos antes da reconstrução 
filogenética pode-se destacar a taxa evoluti- 
va, tipo de relógio molecular, parâmetros do 
modelo de substituição, datas de coleta das 
amostras, datas para calibração da filogenia 
(achados fósseis, datação por carbono-14, 
aproximações arqueológicas, etc.), distribui- 
ção geográfica, organização monofilética de 
um grupo de indivíduos ou, até mesmo, parâ- 
metros de dinâmica populacional. 

Os valores atribuídos o príori são incor- 
porados à estatística Bayesiana na forma de 
probabilidades e comporão o termo chamado 
de probabilidade anterior ( prior probobiiity). 
Se sabemos de antemão que um determinado 
grupo de organismos é ancestral em relação 
a outro, podemos atribuir uma maior proba- 
bilidade àquelas filogenias que relacionam 
estes organismos da maneira como sabemos 
o príori. 

Qualquer informação útil, que é forneci- 
da pelo pesquisador antes da própria recons- 
trução da filogenia, poderá ser convertida em 
uma probabilidade anterior para ser inserida 
nas análises de inferência Bayesiana. No en- 
tanto, as informações cedidas o príori devem 
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Tabela 2-5: Comparação entre os métodos de máxima verossimilhança e inferência Bayesiana. 


Método Vantagens Desvantagens 


Máxima 

Verossimilhança 


Captura totalmente a informação dos sítios Comparativamente ao método Bayesiano, o 
do alinhamento para construção das algoritmo para reconstrução por máxima 
filogenias verossimilhança é mais lento 


Estatística 

Bayesiana 


Tem grande ligação com a máxima 
verossimilhança, sendo, no entanto, 
geralmente mais rápida. Modelos 
populacionais podem ser incluídos para 
inferência das filogenias 


Os parâmetros para as probabilidades 
anteriores devem ser especificados e pode 
ser difícil especificar quando as análises 
são satisfatórias 


ser distribuições de números prováveis (míni- 
mo e máximo), e não números exatos. Quan- 
do estes valores não são conhecidos ou 
quando, por exemplo, não se quer atribuir 
maior probabilidade a uma determinada to- 
pologia, o parâmetro terá uma distribuição 
uniforme de probabilidades. 

Na maioria dos aplicativos que lidam 
com inferência Bayesiana existem distribui- 
ções uniformes associadas às probabilidades 
anteriores que assumem que todos os valo- 
res possíveis são dados pela mesma probabi- 
lidade. 

Além das probabilidades anteriores, a 
inferência Bayesiana é baseada nas proba- 
bilidades posteriores de um parâmetro como, 
por exemplo, a topologia. Através da proba- 
bilidade posterior é possível verificar a pro- 
babilidade de cada uma das hipóteses 
(árvores filogenéticas). Sendo assim, ao final 
das análises, é possível estabelecer uma esti- 
mativa da probabilidade dos eventos retrata- 
dos por uma determinada filogenia, ou seja, a 
probabilidade de cada filogenia. As probabili- 
dades posteriores são calculadas utilizando a 
fórmula de Bayes: 


UH) L (D | H ) 

0 termo L (H I D ) é chamado de distribuição de pro- 
babilidades posteriores, e é dado pela probabilidade da 
hipótese (topologia da árvore, modelo de substituição e 
comprimento dos ramos) a partir dos dados disponí- 
veis (alinhamento de sequências). 0 termo L (D I H) 
descreve o cálculo de máxima verossimilhança, en- 
quanto o multiplicador L (h) é a probabilidade anterior. 
Para o termo que envolve a função de máxima verossi- 




milhança, é ainda necessário considerar também todos 
os tópicos já discutidos na seção anterior. 0 denomina- 
dor L(d) é uma integração sobre todas as possibilida- 
des de topologias, tamanhos de ramo e valores para os 
parâmetros do modelo evolutivo, o que garante que a 
soma da probabilidade posterior para todos eles seja 1. 
0 denominador atuará como um normalizador para o 
numerador. Reescrevendo, temos: 


L(filogenia\ alinhamento) = 


L(filogenia) L(alinhamento\f ilogenia) 
£h L(J ilogenia) L(alnhamento\ filogenia) 


onde o termo filogenia descreve a topologia da árvore, 
o modelo de substituição e o comprimento dos ramos. 
Assim, através da multiplicação das probabilidades an- 
teriores pela verossimilhança, divididos pelo fator de 
normalização, o método busca a hipótese (topologia da 
árvore, o modelo de substituição e o comprimento dos 
ramos) em que a probabilidade posterior é máxima. 

0 objetivo da inferência Bayesiana é cal- 
cular a probabilidade posterior para cada fi- 
logenia proposta. No entanto, para cada 
árvore diversos parâmetros devem ser espe- 
cificados pelo usuário, incluindo topologia, ta- 
manho dos ramos, parâmetros do modelo de 
substituição, parâmetros populacionais, reló- 
gio molecular, taxa evolutiva, etc. Dada uma 
filogenia, todos os parâmetros terão sua pro- 
babilidade posterior calculada. Se dadas 1000 
filogenias, teremos 1ÜÜÜ valores de probabi- 
lidade posterior para cada parâmetro. 

Devido à impossibilidade de construção 
de todas as filogenias possíveis para a maioria 
dos alinhamentos, a análise Bayesiana se 
aproveita de técnicas de amostragem para 
estimar os valores esperados de cada parâ- 
metro. 

Neste sentido, os métodos de inferência 
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Bayesiana utilizam as Cadeias de Markov 
Monte Cario (MCMC, Monte Corto Morkov 
Chain) para aproximar as distribuições proba- 
bilísticas em uma grande variedade de con- 
textos. Esta abordagem permite realizar 
amostragens a partir do conjunto total de fi- 
logenias, relacionando cada filogenia a um 
valor probabilístico. Sem a aplicação de um 
método que obtenha amostras do espaço de 
possíveis filogenias, como o modelo de MCMC, 
a estimativa de todos os parâmetros se tor- 
naria analiticamente impossível nos atuais 
computadores. 

Um dos métodos de MCMC mais usados 
na inferência filogenética é uma modificação 
do algoritmo Metropolis, chamado de Metro- 
polis-Hastings. A ideia central deste método é 
causar pequenas mudanças em uma filogenia 
(topologia, tamanho dos ramos, parâmetros 
do modelo de substituição, etc.) e, após a 
modificação, aceitar ou rejeitar a nova hipóte- 
se de acordo com o cálculo de razão das pro- 
babilidades. Este método garante que 
diversas árvores sejam amostradas do espa- 
ço total de filogenias, amostrando filogenias 
com probabilidade posterior mais alta (Figura 
15-5): 

i) Inicialmente, o algoritmo MCMC gera 
uma filogenia aleatória X, arbitraria- 
mente escolhendo o tamanho dos ra- 
mos para dar início à cadeia; 

ii) 0 valor de probabilidade associado a 
esta filogenia é calculado (probabilidade 
posterior calculada através da fórmula 
de Bayes); 

Ui) Perturbações aleatórias são realiza- 
das nesta filogenia inicial X (mudanças 
na topologia, no tamanho dos ramos, 
nos parâmetros do modelo de substi- 
tuição, etc.) e geram uma filogenia Y; 

iv) A probabilidade posterior é calculada 
para a filogenia Y; 

v) A filogenia Y é tomada ou rejeitada 
para o próximo passo baseado na razão 
R (probabilidade posterior de Y dividida 
pela probabilidade posterior de X). Se R 
é maior que 1, a filogenia Y é tomada 
como base para o próximo passo. Se R é 
menor que 1, um número entre ü e 1 é 


tomado aleatoriamente. Se R é maior 
que o número aleatório gerado, a filo- 
genia será tomada, no entanto se for 
menor, a filogenia Y é rejeitada; 
ví) Se a nova proposta Y for rejeitada, 
retorna-se ao estado X e novas modifi- 
cações serão realizadas nesta filogenia; 

vii) Supondo que a proposta Y tenha si- 
do aceita, ela sofrerá uma nova pertur- 
bação a fim de gerar uma nova filogenia; 

viii) Todas as árvores amostradas são 
armazenadas para posterior compara- 
ção. Os pontos visitados formam uma 


a. Filogenia Y 

R > 1 



N = 0.7 (R < N) 

Filogenia rejeitada 

Figura 15-5: Esquema de amostragens MCMC 
aplicada à inferência filogenética pelo método 
Bayesiano utilizando o algoritmo de 
Metropolis-Flastings. (a) Após a proposição de 
uma filogenia inicial X, perturbações 
aleatórias são realizadas para gerar a 
filogenia Y. Devido à razão R>1, a nova 
filogenia é aceita. Nova perturbação é 
realizada para gerar a filogenia W e, devido a 
razão de probabilidades R resultar em um 
número menor que 1, um número aleatório N 
é sorteado. Sendo R<N, a nova proposição é 
rejeitada e a cadeia retorna à filogenia Y. (b) 
Andamento da cadeia na amostragem de 
filogenias. Cada círculo destaca uma nova 
filogenia que é proposta após a perturbação. 
As linhas conectando os círculos evidenciam a 
direção do andamento da cadeia. Apesar de a 
cadeia percorrer muitos passos, apenas 
alguns serão registrados para análise final 
(círculos pretos). Os círculos em vermelho 
são aqueles evidenciados em (a). 
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espécie de cadeia ao Longo do espaço 
amostrai total de filogenias. 

0 principal objetivo da cadeia é amos- 
trar filogenias com probabilidades crescentes. 
No entanto, é importante que o algoritmo uti- 
lizado para tal permita que algumas árvores 
com menor probabilidade sejam amostradas 
para evitar que a cadeia fique “presa” em pi- 
cos de máximo local (Figura 9-5). 

Sendo assim, o cálculo da razão R con- 
siderando um valor aleatório entre ü e 1 ga- 
rantirá que, em determinados momentos, 
uma filogenia com menor probabilidade seja 
aceita. Por este método, é possível amostrar 
filogenias da região de um vale passando, por 
exemplo, de um pico de ótimo local para o pi- 
co de ótimo global (Figura 9-5). 

A proposta de novas árvores na cadeia 
de Markov é uma etapa crucial para uma boa 
amostragem de filogenias. Na abordagem 
Bayesiana, uma boa amostragem inclui um 
grande número de filogenias, suficientemente 
diferentes entre si. Se filogenias muito dife- 
rentes são propostas, serão rejeitadas com 
muita frequência, pois é provável que tenham 
menor probabilidade posterior. Pelo contrário, 
se filogenias muito similares forem geradas, o 
espaço amostrai não será varrido adequada- 
mente e a cadeia deverá “correr” por muitos 
passos (amostrar um maior número de filo- 
genias), aumentando o tamanho da cadeia e o 
tempo computacional. 

Estimar o quanto a cadeia deve percor- 
rer para amostrar um número suficiente de 
filogenias para as sequências dadas (espaço 
de árvores) é um fator fundamental para ob- 
ter bons resultados em uma análise Bayesia- 
na. Na maioria dos programas que utilizam 
estatística Bayesiana para inferir filogenias, o 
usuário deve especificar o tamanho da cadeia. 
Esse número é de grande subjetividade, e de- 
pende diretamente da distribuição das proba- 
bilidades anteriores, do número de táxons 
incluídos na filogenia e da relação evolutiva 
entre eles. 

A Figura 16-5 exemplifica o andamento 
da amostragem da MCMC em um espaço de 
filogenias. Supondo que os quadrados em a, b 


e c representam um espaço amostrai de filo- 
genias, semelhante ao apresentado na Figura 
15-5b, e que os pontos pretos sejam as filo- 
genias que vão sendo amostradas com o de- 
senvolvimento da MCMC vemos que, ao final 
do processo, depois de empregados 1ÜÜ mil 
passos (Figura 16-5c), um grande número de 
filogenias foi amostrado. 

Ainda, na região delimitada por um cír- 
culo, assumimos que estão as filogenias com 
maior probabilidade de explicar a história 
evolutiva de um grupo de organismos, ou se- 
ja, as filogenias reais. Note que quanto maior 
o número de passos percorridos pela cadeia, 
maior a amostragem do espaço de filogenias 
e maior o número de amostras dentro da re- 
gião com filogenias de alta probabilidade. 

Ao final, após o término da cadeia, a 
distribuição das probabilidades posteriores de 
todos os parâmetros deve ser verificada. No 

a. b. 

tu 


c. 



Figura 16-5: Espaço de possíveis árvores 
analisadas pela MCMC. Considerando que os 
quadrados descrevem o espaço amostrai de 
todas as filogenias possíveis para um dado 
conjunto de sequências, os pontos pretos 
representam as filogenias que foram 
amostradas ao longo da cadeia. Os círculos 
presentes no canto esquerdo inferior 
representam a região de máximo global (isto 
é, maior probabilidade) neste espaço 
amostrai. 0 andamento da cadeia neste 
exemplo é o mesmo apresentado na Figura 
15-5b (a) cento e trinta passos percorridos 
pela cadeia: (b) trinta mil passos percorridos 
pela cadeia: (c) cem mil passos percorridos 
pela cadeia. Nota-se que quanto maior o 
número de passos percorridos, maior a 
amostragem de filogenias no espaço. Da 
mesma forma, aumenta a probabilidade de a 
cadeia amostrar aquelas filogenias de 
máximo global. 
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entanto, as amostras tomadas no início da 
cadeia são tipicamente descartadas, pois es- 
tão sob forte influência do local de início da 
cadeia. As filogenias do início da cadeia estão 
muito longe de pontos máximos no espaço 
amostrai e, por isso, é provável que todas as 
novas filogenias sugeridas subsequentemente 
sejam tomadas para o próximo passo (qual- 
quer árvore proposta será mais provável que 
as árvores iniciais semelhantes àquela gerada 
aleatoriamente). 

Esta fase inicial é conhecida como perí- 
odo de burn in (Figura 17-5). Conforme a ca- 
deia avança, espera-se que a probabilidade 
das árvores amostradas aumente e, quando 
um número suficiente de filogenias for amos- 
trado, chegue a uma distribuição estacionária. 
Em termos Bayesianos, espera-se que a ca- 
deia atinja a convergência. 

Um dos primeiros indicativos de que a 
cadeia convergiu para a distribuição correta 
está na estabilidade dos valores de probabili- 
dade dos parâmetros da cadeia (cada parâ- 
metro da filogenia poderá ter uma 
distribuição independente). Portanto, a repre- 
sentação gráfica dos valores das probabilida- 
des e dos respectivos passos da cadeia (trace 
piot) é uma importante ferramenta para mo- 
nitorar o desempenho da MCMC (Figura 17-5). 

Devido ao aumento brusco de probabili- 
dade das filogenias que são visitadas pelo an- 
damento da cadeia, os gráficos 
necessariamente incluirão os valores medidos 
em escala logarítmica (ln L, Figura 17-5). Em 
estatística Bayesiana, é comum que seja atri- 
buído um intervalo de credibilidade de 95% 
para os parâmetros amostrados. Estes valo- 
res são obtidos através da eliminação de 
2,5% dos valores mais baixos e de 2,5% dos 
valores mais altos para um determinado pa- 
râmetro. Um intervalo de credibilidade con- 
tém o valor correto com 95% de 
probabilidade; no entanto, não se trata de um 
intervalo de confiança. 

Adicionalmente, outros métodos são úteis para di- 
agnosticar a convergência da cadeia, tais como o exa- 
me do tamanho amostrai efetivo (ESS) e a comparação 
de amostras resultantes de diferentes cadeias (várias 
cadeias de MCMC são aplicadas para o mesmo conjunto 
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Figura 17-5: Representação gráfica das 

probabilidades das filogenias na cadeia ao 
longo de 3ÜÜ milhões de amostragens. 0 
esquema demonstra duas visualizações 
possíveis: à esquerda, são mostrados apenas 
os pontos referentes às amostras tomadas 
ao longo da cadeia e, à direita, as 
amostragens sucessivas são ligadas umas as 
outras para facilitar a visualização do 
comportamento da cadeia. Em cinza, a fase 
inicial de burn in da Cadeia de Markov Monte 
Cario. 

de dados). Apesar de ser computacionalmente intensi- 
va, a última alternativa parece ser a mais confiável pa- 
ra verificar a convergência. Contudo, o exame de ESS é, 
ainda hoje, o método mais utilizado. 0 tamanho amos- 
trai efetivo é uma estimativa para verificar o número 
de amostras independentes existentes na cadeia, ou 
seja, quantas amostras não similares foram tomadas. 
Atualmente, um ESS maior que 200 é um indicativo de 
que a cadeia convergiu adequadamente. 

A técnica de Metropolis Coupiing, conhecida como 
MCMCMC ou (MC) 3 , através da introdução da corrida si- 
multânea de duas cadeias, pode ajudar na amostragem 
de máximos globais e beneficiar na convergência da 
cadeia. Nesta técnica uma cadeia, chamada de quente 
{hot chairí), permite aproximar os valores de máxima e 
mínima probabilidade das amostras para que a cadeia 
possa, de forma mais rápida, “saltar” entre picos de 
probabilidade, especialmente de máximos locais para 
máximos globais. 0 aquecimento da cadeia é dado pelo 
parâmetro (3 e visa diminuir a altura dos picos locais no 
espaço amostrai. Uma segunda cadeia simultânea, 
chamada de fria ( coid chairí), utiliza as informações 
destes saltos da cadeia quente para melhorar a sua 
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amostragem e garantir a convergência. 

Os métodos Bayesianos de inferência filogenática 
ainda têm a vantagem de aplicar modelos que envol- 
vem diferentes tipos de relógios moleculares. 

As distâncias genéticas, depois de “tratadas” pelos 
modelos de substituição, não tem qualquer significado 
sozinhas quando se deseja estimar, por exemplo, a ida- 
de do ancestral comum mais recente de duas OTUs. 
Esta e outras questões podem ser avaliadas quando 
aplicamos uma medida de tempo nas inferências, a fim 
de calibrar as taxas evolutivas. Sequenciamentos de 
amostras isoladas em diferentes épocas podem forne- 
cer a calibração adequada para inferências temporais, 
pois se assume uma taxa evolutiva constante ao longo 
de um tempo t para todos os ramos de uma filogenia 
(relógio molecular estrito). 

As taxas evolutivas dependem de diversos fatores 
e podem variar, nem sempre seguindo a constância 
proposta por este modelo. Após a introdução de um ti- 
po específico de relógio molecular relaxado, as taxas 
de evolução podem variar ao longo da árvore para di- 
ferentes grupos e não são correlacionadas, ou seja, 
grupos evolutivamente próximos não necessariamente 
terão taxas de evolução semelhantes (relógio molecu- 
lar relaxado não correlacionado). 

Complexos modelos de dinâmica popu- 
lacional podem ser analisados sob uma pers- 
pectiva Bayesiana. Quando o conjunto de 
sequências submetido às analises são isola- 
dos de uma população homogênea, os parâ- 
metros de história demográfica podem ser 
usados para modelar as mudanças populaci- 
onais ao longo do tempo. Desta forma, atra- 
vés da estatística Bayesiana é possível, além 
da inferência filogenática, refinar as análises e 
datar filogenias e ramos específicos (Figura 
18-5), inferir caracteres ancestrais e analisar 
a dinâmica populacional sob uma ótica evolu- 
tiva. 

5.8. Confiabilidade 

0 papel principal das técnicas de infe- 
rência filogenática é desvendar as relações 
evolutivas reais através de dados molecula- 
res, buscando garantir que esta reconstrução 
seja fidedigna. Além da inferência das rela- 
ções evolutivas entre os táxons, é igualmente 
importante que a filogenia possua precisão. 
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Figura 18-5: Árvore filogenática consenso 
gerada por inferência Bayesiana para 70 
sequências de nucleotídeos. As cores nos 
ramos representam diferentes ciados (B-H). 
0 grupo externo está identificado como ciado 
A. 0 Ciado Fl foi agrupado para facilitar a 
representação. Nos nós estão especificados 
os valores de probabilidade posterior acima 
de 70. Abaixo, é apresentada a escala 
temporal inferida a partir da utilização de um 
relógio molecular relaxado. 


Esta característica está relacionada ao núme- 
ro de filogenias que podem ser excluídas, a 
partir do conjunto total de filogenias, por não 
serem “verdadeiras”. Quanto maior o número 
de filogenias excluídas neste processo, mais 
preciso é o método. 

Em geral, na maioria dos casos de re- 
construção filogenética, a falta de precisão 
das filogenias está relacionada ao conjunto de 
dados que está sendo fornecido no alinha- 
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mento. O gene considerado, o tamanho das 
sequências, o número de indivíduos e o grupo 
externo são atribuições fundamentais para 
uma reconstrução filogenética precisa e de- 
pendem, especialmente, do objetivo do estu- 
do e da própria disponibilidade de informação. 

Em muitos casos, o pesquisador é ainda 
dependente do número de amostras e do su- 
cesso de coleta em campo, sobretudo, quan- 
do seu objeto de estudo se trata de uma 
espécie rara ou de indivíduos de difícil amos- 
tragem. No entanto, apesar de toda a infor- 
mação relacionada ao conjunto de dados, a 
dificuldade de amostragem de indivíduos pa- 
rece ser, sem dúvida, o principal problema 
relacionado a precisão das filogenias, pois a 
falta de dados de variabilidade genética com- 
promete a inferência de história evolutiva co- 
erente. 

Como é possível saber se a amostragem 
foi suficiente e a filogenia é confiável? Usual- 
mente, a resposta para esta questão consiste 
na reamostragem de dados. Se novas amos- 
tras forem tomadas e a mesma filogenia for 
reproduzida, a filogenia proposta tem seu va- 
lor reforçado. No entanto, na maioria dos ca- 
sos, a reamostragem de dados da forma 
usual (coletas de novos espécimes, reamos- 
tragens em campo, achado fóssil diferente, 
etc) não é factível. Assim, algoritmos que 
produzem diferentes amostragens utilizando 
o mesmo conjunto de dados foram desenvol- 
vidos para possibilitar a verificação da confia- 
bilidade nos ciados das filogenias. Destaca-se 
entre estes algoritmos o método de 
bootstrap. 

Bootstrap é um método de reamostra- 
gem utilizado para realizar comparações da 
variabilidade das hipóteses filogenéticas, ofe- 
recendo medidas de confiabilidade aos ciados 
propostos. A reamostragem é realizada a 
partir do mesmo conjunto de dados, e novas 
amostras fictícias com o mesmo tamanho 
serão geradas. 

Segundo este método, cada sítio do ali- 
nhamento será tratado de forma indepen- 
dente. Conforme a Figura 19-5, inicialmente o 
algoritmo reconstruirá a filogenia a partir do 
alinhamento dado e, posteriormente, diversas 


replicatas serão reconstruídas. As colunas, 
representando os sítios do alinhamento, se- 
rão aleatoriamente tomadas (amostradas) 
pelo algoritmo e, em seguida, serão agrupa- 
das uma ao lado da outra de maneira a for- 
mar um novo alinhamento (com o mesmo 
número de sítios do alinhamento original, Fi- 
gura 19-5). 

Por este método, é possível que um 
mesmo sítio seja amostrado mais de uma vez 
e, portanto, alguns sítios não serão selecio- 
nados para o novo alinhamento. Um número 
fornecido pelo usuário especificará o número 
de pseudoreplicatas (novos alinhamentos) 
que serão construídas. Assim que uma pseu- 
doreplicata for criada, o algoritmo constrói a 
filogenia correspondente. 
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seq03 TGG.-TCAGGA 
seq04 TGG ACAGG. 
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Figura 19-5: Método de boostrap para 

filogenias. A partir do alinhamento original, as 
colunas que representam os sítios serão 
aleatoriamente amostradas para construir 
pseudoreplicatas (um mesmo sítio pode ser 
sorteado diversas vezes). Estas, por sua vez, 
serão utilizadas para a inferência de 
filogenias, da mesma forma que o 
alinhamento original. 
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É importante ressaltar que a inferência 
destas filogenias será realizada pelo método 
de construção especificado pelo usuário, seja 
aproximação de vizinhos, máxima parcimônia 
ou máxima verossimilhança (para árvores 
bayesianas, veja adiante). Ao final, o algorit- 
mo analisará os ciados e automaticamente 
verificará a presença de determinados agru- 
pamentos em todas as filogenias construídas. 
Se, por exemplo, encontramos as sequências 
1 e 2 formando um ciado em 70% das filoge- 
nias construídas, atribuiremos a confiabilidade 
de 70 ao ciado formado por estas duas se- 
quências. Comumente, o valor de confiabili- 
dade dos ciados é colocado próximo ao 
ancestral comum do ciado (Figura 18-5). 

A partir dos resultados de confiabilidade 
dos ciados é possível também construir filo- 
genias baseando-se na árvore consenso ge- 
rada pela regra da maioria ( majority-ruLe 
consensus tree). Neste método, o algoritmo 
tabulará todos os ciados formados em todas 
as replicatas geradas. Aqueles ciados que 
mais aparecerem servirão para montar a fi- 
logenia consenso. 

Ao contrário dos métodos de aproxima- 
ção de vizinhos, máxima parcimônia e máxima 
verossimilhança, a confiabilidade de filogenias 
construídas através de estatística Bayesiana é 
inerente ao processo. Como diversas filogeni- 
as são amostradas ao longo do desempenho 
da Cadeia de Markov, não é necessário ne- 
nhum método para simular reamostragens do 
mesmo conjunto de dados. As amostras se- 
rão resumidas a partir da distribuição poste- 
rior de filogenias como frequência de ciados 
individuais e serão identificadas por um nú- 
mero próximo ao ancestral comum daqueles 
ciados (Figura 18-5). Portanto, o valor de 
probabilidade posterior de um ciado repre- 
senta uma inferência a respeito da probabili- 
dade daquele ciado. 

A comparação dos valores de bootstrap 
e de probabilidade posterior dos ciados para 
filogenias construídas a partir do mesmo ali- 
nhamento utilizando máxima verossimilhança 
e o método Bayesiano, respectivamente, leva 
a conclusão de que o método Bayesiano su- 
perestima a confiança aos ciados. A confiança 


atribuída pela probabilidade posterior é ge- 
ralmente maior que aquela atribuída pelo 
método de bootstrap. Por isso, enquanto uma 
confiança acima de 70 é considerada susten- 
tada para o bootstrap, apenas valores acima 
de 90 podem ser considerados relevantes 
para os métodos Bayesianos. 

5.9. Interpretação de filogenias 

Árvores filogenéticas são diagramas 
que denotam a história evolutiva de diferentes 
OTUs a partir de seu ancestral comum. Mais 
do que isso, as filogenias moleculares são 
ferramentas que ajudam no entendimento 
dos diversos processos evolutivos que mol- 
dam o genoma dos organismos. Desta forma, 
a interpretação das implicações evolutivas 
associadas a um, ou a um conjunto de táxons, 
está diretamente relacionada à disposição dos 
ramos internos e externos de uma árvore. In- 
dependentemente do método de inferência, 
ou da forma como a árvore é apresentada, a 
interpretação dos resultados será baseada 
nos mesmos pressupostos, ainda que méto- 
dos diferentes possam originar filogenias di- 
ferentes. 

Inicialmente, é necessário observar a 
presença de uma raiz. Como já discutido, o 
método de enraizamento pelo grupo externo 
é o mais comum e utiliza organismos sabida- 
mente relacionados ao grupo em evidência, 
servindo para orientar o algoritmo em rela- 
ção às características mais ancestrais do 
grupo. 0 grupo externo ajudará a evidenciar o 
tempo evolutivo. Na Figura 20-5, por exem- 
plo, o grupo externo é dado pelo orangotango, 
pois este compartilha o mesmo ancestral co- 
mum que o restante do grupo. No caso de fi- 
logenias sem raiz, é necessário ter cautela 
nas interpretações, pois este tipo de diagrama 
apenas revela a relação entre os táxons. 

Depois de encontrada a raiz da filogenia, 
é preciso avaliar os ramos. Dependendo do 
método, os ramos podem ter significados di- 
ferentes. Na Figura 18-5, os ramos evidenci- 
am o tempo real, apresentando OTUs 
amostradas no passado. Pelo contrário, na 
Figura 20-5, os ramos evidenciam apenas um 
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Figura 20-5: Diferentes representações da 
filogenia dos primatas. 

tempo evolutivo representado pelo número 
de modificações genômicas, desde o organis- 
mo ancestral até os ramos terminais. Alem 
disso, deve-se perceber a escala na qual os 
ramos foram representados, pois estes indi- 
cam o número de substituições que provavel- 
mente ocorreram ao longo do processo 
evolutivo e podem ajudar na interpretação 
das taxas evolutivas. 

Conclusões evolutivas baseadas em ár- 
vores filogenéticas devem ser sustentadas 
em árvore confiáveis e, por isso, a medida de 
confiabilidade dos ramos deve ser denotada. 
Inicialmente, é necessário verificar o método 
utilizado para reconstrução da filogenia e, 
quando necessário, verificar o algoritmo utili- 
zado para gerar a confiabilidade dos ciados. 
Ramos com maiores valores de confiabilidade 
gerarão conclusões mais confiáveis, enquanto 
que ciados com baixos valores deverão ser 
interpretados com maior cuidado. No entanto, 
não é necessário negar totalmente conclu- 
sões baseadas em filogenias com baixa confi- 


abilidade nos ramos. 0 tipo de método, a for- 
ma de amostragem e o número de OTUs po- 
dem ser fatores de interferência e, assim, 
podem prejudicar a valorização dos ramos. 

0 padrão de organização dos ramos de 
uma filogenia denota o padrão de ancestrali- 
dade. As filogenias não são escadas, onde al- 
guns organismos são “mais evoluídos” que 
outros, mas uma representação da história da 
derivação de OTUs. Na Figura 18-5, por ex- 
emplo, é possível observar que os ciados B, 
C, D, E, F e G possuem um ancestral comum 
que compartilha um outro ancestral com o 
ciado A. Já o ciado H, representado por um 
triângulo para evidenciar um grande número 
de táxons naquele ponto da filogenia, teve um 
ancestral comum dentro do ciado G. Este pa- 
drão sugere que o ciado H se originou a partir 
do ciado G. Da mesma forma, podemos ob- 
servar a disposição do ciado G em relação ao 
F e concluir que o primeiro se originou a partir 
do segundo. 

No caso da Figura 20-5, observamos 
que humanos e chimpanzés tiveram um mes- 
mo ancestral comum. Com base nestes da- 
dos, é incorreto pensarmos que humanos são 
derivados de chimpanzés, ou que humanos 
são mais evoluídos que chimpanzés. Estes 
organismos estão apenas formando um 
mesmo ciado dentro da filogenia dos prima- 
tas. 

Por último, é fundamental saber o obje- 
tivo do estudo filogenético a ser realizado. 
Árvores filogenéticas devem ser construídas 
para responder uma determinada questão, 
que pode envolver apenas um, ou diversos 
organismos. 

Quando possível, é importante recons- 
truir a filogenia utilizando diferentes métodos 
de inferência e compará-las entre si. A con- 
clusão desta forma será melhor sustentada. 
Além disso, atualmente, a história retratada 
em uma filogenia não é por si só satisfatória. 
Outras ferramentas podem ser utilizadas pa- 
ra complementar e sustentar a interpretação 
de uma filogenia, incluindo análises de re- 
combinação, pressão seletiva e estruturação 
populacional, verificação de coespeciação, 
construção de redes filogeográficas, compa- 


111 


5. Filogenia Molecular 



ração com dados de fósseis, eventos geológi- 
cos, dados históricos e, até mesmo, análises 
de dados comportamentais. 

Um exemplo da combinação de análises 
filogenéticas com dados históricos veio na 
confirmação da origem e disseminação hu- 
mana a partir da África. Através da utilização 
de dados histórico-antropológicos (como 
vestígios materiais de hominídeos ancestrais), 
fósseis de hominídeos e análises de DNA mi- 
tocondrial de representantes de diferentes 
etnias, os pesquisadores puderam traçar as 
rotas de disseminação humana a partir da 
África. 

Outro exemplo está na solução de um 
enigma que perturbou zoólogos por um longo 
período: a posição taxônomica do panda-gi- 
gante entre os mamíferos carnívoros. Apesar 
de esta espécie ser fisicamente muito similar 
a um urso, outras características, como den- 
tição e anatomia das patas, levaram à propo- 
sição de uma hipótese antes não imaginada. 

Tal hipótese propunha que o panda-gi- 
gante ( Aituropodo melanoleucá) seria proxi- 
mamente relacionado ao o panda-vermelho 
(Ailurus futgens), um mamífero de pequeno 


porte, semelhante ao guaxinim. Com o em- 
prego de diferentes dados, incluindo fósseis, 
anatomia de mamíferos atuais, distribuição 
geográfica, sequências de DNA de diferentes 
porções do genoma, sequências de aminoáci- 
dos de diferentes proteínas e mapeamento 
cromossômico, foi possível estabelecer uma 
história evolutiva plausível, capaz de descre- 
ver a origem evolutiva do panda-gigante (Fi- 
gura 21-5). 

Por meio dessa análise combinada de 
dados, se propôs que o panda-gigante, um 
urso, derivou do ancestral comum dos ursos 
há cerca de 24 milhões de anos, muito antes 
das derivações que originaram todos os ou- 
tros ursos existentes hoje. Além disso, ob- 
servou-se que os ursos e os procionídeos 
(grupo que inclui o guaxinim e o panda-ver- 
melho) possuem um ancestral comum que 
deu origem às duas linhagens há aproximada- 
mente 30 milhões de anos. 

A filogenia molecular é uma ferramenta 
útil quando empregada isoladamente, mas 
que pode se beneficiar de diferentes tipos de 
dados para propor uma história evolutiva. Em 
última análise, a decisão sobre que tipos de 
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Figura 21-5: Posição filogenética do panda-gigante, baseada na combinação de diferentes tipos 
de dados. Baseado em BININDA-EMONDS, Olaf R.P. Phyiogenetic position ofthe glont pondo. Em: 
LINDBURG, D.G. & Baragona, K. Giont pandas: Bioiogy ond conservation. Berkeley: University of 
Califórnia Press, 2004; e em EIZIRIK, Eduardo e colaboradores: Pottern ond timing of 
diversificotion of the mommoiion order Carnívora inferred from multiple nucieor gene 
seguences. Moí Phylogenet Evot, 56, 49, 2010. 
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dados (além dos moleculares) serão empre- 
gados na análise filogenética dependerá da 
pergunta a ser respondida com essa técnica. 
Não existem regras pré-estabelecidas, e as 
estratégias analíticas precisam ser propostas 
caso a caso. 

5.10. Conceitos-chave 

Ancestral: organismo ou sequência que originou 
novo(s) organismo(s) ou sequência(s). Em 
alguns casos pode ser considerado o mes- 
mo que primitivo. 

Apomórfico: refere-se a um caractere novo ad- 
quirido ao longo do processo evolutivo, 
uma inovação. Uma apomorfia pode servir 
de diagnóstico para separação de ciados. 

Aproximação dos vizinhos: neighbor joining 

(NJ), método de inferência filogenética 
quantitativo baseado em distância genéti- 
ca. 

Autapomorfias: apomorfias específicas e restri- 
tas a um ciado. 

Bootstrap : método de reamostragem que per- 
mite verificar a confiabilidade dos ramos 
de uma filogenia. 

Cadeias de Markov Monte Cario: método utiliza- 
do pela estatística Bayesiana para amos- 
trar as probabilidades de distribuição de 
diferentes parâmetros das filogenias. 

Ciado: grupo formado por um ancestral e todos 
seus descendentes, um ramo único em 
uma árvore filogenética. 

Derivado: que se originou de um ancestral e é 
mais recente no tempo evolutivo (nota: 
deve-se evitar o termo "mais evoluído" e, 
em seu lugar, empregar "derivado"). 

Distância Genética: medida quantitativa da di- 
vergência genética entre organismos. 

Espaço Amostrai de Filogenias: espaço teórico 


que inclui todas as filogenias possíveis 
(com raiz ou sem raiz) para um determi- 
nado alinhamento. 

Frequência de equilíbrio: ponto em que não 
existe mais alteração nas frequências dos 
alelos. 

Grupos irmãos: ciados que dividem um ancestral 
comum. 

Homologia: similaridade originada por ancestra- 
lidade comum. 

Inferência filogenética Bayesiana: método qua- 
litativo de inferência filogenética baseado 
na estatística Bayesiana. Através da Ca- 
deia de Markov Monte Cario este método 
buscará as árvores mais prováveis dentro 
das filogenias amostradas. 

Máxima Parcimônia: método qualitativo de infe- 
rência filogenética que busca a árvore que 
minimiza o número total de substituição 
de nucleotídeos. 

Máxima Verossimilhança: método qualitativo de 
inferência filogenética que busca a árvore 
com a máxima verossimilhança. 

Monofilia: associação entre o ancestral comum e 
todos os seus descendentes, formando um 
ciado monofilético. 

Múltiplas Substituições: eventos múltiplos de 
substituição de nucleotídeo localizado em 
um mesmo sítio do DNA. 

Modelos de Substituição: modelos matemáticos 
utilizados para descrever o processo evo- 
lutivo ao longo do tempo, podendo ser 
aplicados ao alinhamento de nucleotídeos 
ou aminoácidos. 

Ortólogo: genes homólogos em diferentes orga- 
nismos e que mantém a mesma função. 

OTU: unidade taxonômica operacional, folha ou 
nó terminal em uma árvore filogenética. 
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Parafilia: associação entre o ancestral comum e 
apenas parte de seus descendentes, for- 
mando um ciado parafilético. 

Parálogo: genes homólogos de um mesmo or- 
ganismo que divergiram após duplicação. 

Plesiomórfico: dotado de características do an- 
cestral que são conservadas nos descen- 
dentes. 

Polifilia: associação entre diferentes OTUs sem a 
necessidade de um único ancestral co- 
mum, frequentemente originada por con- 
vergência evolutiva. 

Primitivo: diz-se de características ou organis- 
mos ancestrais, anteriores no tempo evo- 
lutivo a organismos ou características mais 
recentes. 

Probabilidades Anteriores: distribuição dos valo- 
res de um parâmetro filogenético que é 
sabido de antemão pelo pesquisador. 

Probabilidades Posteriores: conjunto da distri- 
buição dos valores de parâmetros filoge- 
néticos resultantes do método de 
inferência Bayesiana. 

Sistemática: estudo da diversificação das formas 
vivas e suas relações ao longo do tempo. 

Taxonomia: estudo que busca agrupar os orga- 
nismos com base em suas características e 
nomear os grupos obtidos, classificando- 
os em alguma escala. 

Taxon: grupo (de qualquer nível hierárquico) 
proposto pela taxonomia. 

Topologia: descreve a ordem e a disposição 
exata das OTUs em uma filogenia. 

UPGMA: unweighted pair-group method using 
arithmetic average, método de inferência 
filogenética quantitativo baseado em dis- 
tância. 


5.11. Leitura recomendada 

FELSENSTEIN, Joseph. Inferring Phylogenies. 
Sunderland: Sinauer, 2004. 

GREGORY, T. Ryan: Understanding 

Evolutionary Trees. Evo. Edu. Outreach, 
2008, 1,121-137. 

LEMEY, Philippe; SALEMI, Marco; Vandamme, 
Anne-Mieke (Org.). The Phylogenetic 
Handbook. 2.ed. Cambridge: Cambridge 
University Press, 2009. 

MATIOLI, Sérgio Russo; FERNANDES, Flora M.C. 
(Org.). Biologia Molecular e Evolução. 

2.ed. Ribeirão Preto: Holos, 2012. 

NEI, Masatoshi; KUMAR, Sudhir. Molecular 
Evolution and Phylogenetics. Nova 
Iorque: Oxford University Press, 2000. 

PABÓN-MORA, Natalia; GONZÁLEZ, Favio. A 
classificação biológica: de espécies a ge- 
nes. In: ABRANTES, Paulo C. (Org.), Filo- 
sofia da Biologia. Porto Alegre: Artmed, 
2011. 

SCHNEIDER, Horacio. Métodos de Análise Fi- 
logenética: Um Guia Prático. 3.ed. Ri- 
beirão Preto: Holos, 2007. 


114 


o 

u 

’5b 


escala -2 

distribuição -§ s ‘ stemas ^ análise 
2 propriedades ^ COI10XO6S tendem 


módulos 

podem 

v-no FÍSfÜra maior interações 

• dentro i & /W siStema forn ? açâo < 

mteraçaodiferentes 

complexos q asam 5 PTclU ■ sendo 

outrasj y — ( AsSim ^ Contudo J^CllUU 

pode Ph 

clusterização 2 -g, ■ 1 mesma ^ ^|E| ligam 

enquanto?^ ■§ 


C/3 

O uiv|uaiuu Kjj o mm £ 

<L> n 2 * o 

•| '■a OJ -g g- 

£ G apresentam ^ 5 

u Q r 00 

E 


o conectividade mimprn 

2 OUtrOS probabilidade 
o 

X 

<L> 

Ü 

E 


r - redes 

^c/3 

CÜ<D proteína-proteína I 
J-H modelo ^ duag 

elementos 

'HÍjQpVr'° 

( I \ (joti função ^ 

■ 1 qj proteína 

™ JL representa 

O tí o tipo ligação 
w» A jrorma oroteica 
l_i 0 |oDNA ^ 

Ç J -q £ conectados 

w s -i conector 



I caminho 


I 


6. Biologia de Sistemas 



"Pensar a complexidade - esse é o maior 
desafio do pensamento contemporâneo, que 
necessita de uma reforma no nosso modo 
de pensar." 


Joice de Faria Poloni 
Bruno César Feltes 
Fernanda Rabaioli da Silva 
Diego Bonatto 


Edgar Morin & Jean-Louis Le Moigne 

6.1. Introdução 

6.2. Biologia de Sistemas 

6.3. Estrutura de redes 

6 .4. Propriedades de rede 

6.5. Tipos de redes 

6.6. Perturbação de conectores 

6.7. Conceitos-chave 


6.1. Introdução 

Uma das posturas metodológicas mais 
significativas do pensamento científico con- 
temporâneo consiste em reduzir 
o todo a suas partes componen- 
tes. Por exemplo, entendemos o 
funcionamento de um organismo 
como fruto da ação de órgãos. 

Estes por sua vez, são compos- 
tos por tecidos, que são com- 
postos por células. As células 
têm como componentes molé- 
culas que, por fim, são compos- 
tas por átomos. 

Esta abordagem, especial- 
mente importante e difundida na 
área biológica, é fruto das idéias 
introduzidas pelo filósofo René 
Descartes em meados do século XVII, indican- 
do que cada problema encontrado deve ser 
dividido em tantas pequenas partes quanto 


for necessário para resolvê-lo de maneira 
mais parcimoniosa. 

É neste contexto que emerge a divisão 
disciplinar no estudo da natureza. Desde os 
tempos da escola até a universidade, o co- 
nhecimento a ser ensinado manifesta-se na 
separação das disciplinas. Por exemplo, no 
meio acadêmico observamos a biologia com- 
partimentada em botânica, zoologia, ecologia, 
genética, biologia celular e essas, por sua vez, 
subdivididas em outras áreas. Como aspecto 
positivo, o estudo das partes forma especia- 
listas e divide o trabalho, facilitando o enten- 
dimento de suas partes componentes. 
Contudo, neste processo tem-se uma redução 
da complexidade característica dos fenôme- 
nos naturais, o que pode comprometer nossa 
capacidade de entendê-los. 

De fato, a complexidade é inerente à bi- 
ologia, ao funcionamento do nosso organismo 
e à natureza. Há a necessidade, assim, da 
construção de uma abordagem que inclua es- 
ta complexidade, de forma sis- 
têmica; que interligue as 
diversas interações presentes e 
que, ao confrontá-las, consiga 
encontrar relações mais infor- 
mativas e completas. 

A partir desta premissa, 
emergem na década de 1950 as 
primeiras concepções sobre a 
Biologia de Sistemas (BS). Essa 
área, pautada nos conceitos de 
sistema e de complexidade, en- 
volve um estudo sistemático de 
interações em um sistema bio- 
lógico. 

O conceito de sistema é entendido como 
um conjunto de partes ou elementos que 
possuem relações entre si, relações estas 
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que diferem-se daquelas realizadas com ou- 
tros elementos, fora do sistema. Já a idéia de 
complexidade é definida como a condição de 
elementos de um sistema e a relação entre 
esses elementos em um determinado mo- 
mento. 

Um sistema complexo, por conseguinte, 
é um sistema composto de partes interco- 
nectadas que, como um todo, exibe uma ou 
mais propriedades que não seriam observa- 
das a partir das propriedades dos componen- 
tes individuais, possibilitando assim a 
observação de novos fenômenos. Portanto, a 
BS é um campo que investiga as interações 
entre os componentes de um sistema biológi- 
co, buscando contribuir no entendimento de 
como estas interações influenciam a função e 
o comportamento do sistema. 

A busca da compreensão da biologia em 
nível de sistema é um tema recorrente na co- 
munidade científica. Norbert Wiener, em 
1948, foi um dos proponentes da abordagem 
sistemática que levou ao nascimento da ci- 
bernética, ou biocibernética, consolidada com 
os estudos do médico neurologista, William 
Ross Ashby (1903-1972). A partir de 1959, 
Robert Rosen, sob orientação do professor 
Nicolas Rashevsky, propôs uma metodologia 
baseada na “biologia relacional”, onde o mais 
importante na biologia era o estudo da vida 
em si. Após 20 anos, Ludwig von Bertalanffy 
(1901-1972) criou a teoria geral dos sistemas, 
tornando-se o precursor da B5. Em 1966 foi 
formalizado o estudo da B5, com o lança- 
mento da disciplina “Teoria e Biologia de Sis- 
temas” pelo teórico de sistemas Mihajlo 
Mesarovic (1928). 

A partir do trabalho destes pesquisado- 
res, a teoria geral dos sistemas pode ser defi- 
nida como a área que estuda a organização 
abstrata de fenômenos, investigando todos 
os princípios comuns a todas as entidades 
complexas (não somente biológicas) e os mo- 
delos que podem ser utilizados para a sua 
descrição. 

Com o avanço da biologia molecular nas 
décadas que se seguiram, juntamente com o 
nascimento da genômica funcional, grandes 
quantidades de dados tornaram-se disponí- 


veis e os bancos de dados e ferramentas de 
análise adaptaram-se ao volume crescente de 
informações, permitindo construir modelos 
mais amplos, capazes de lidar com aspectos 
e fenômenos inacessíveis até então. Assim 
em 2000, quando o Instituto de Biologia de 
Sistemas foi fundado, a biologia de sistemas 
emergiu como um campo próprio, estimulado 
pelo aumento de dados “ômicos” e pelos 
avanços da parte experimental e da bioinfor- 
mática visando o entendimento sistemático 
da biologia. Desde então, grupos de pesquisas 
dedicados à BS têm sido formados em todo o 
mundo. 

Para tal, a BS depende de ferramentas 
interdisciplinares para obter, integrar e anali- 
sar diversos tipos de dados, exemplificados 
na Tabela 1-6. Essa abordagem requer novas 
técnicas de análise, ferramentas de informá- 
tica, métodos experimentais e uma nova pos- 
tura metodológica, articulando partes 
normalmente estudadas separadamente. 

6.2. Biologia de Sistemas 

Em suas análises, a B5 relaciona partes 
individuais de um sistema como representa- 
ções gráficas de conjuntos de nós ou vértices 
( V ), conectados entre si por conectores ou 
arestas ( E , do inglês edge). Os nós podem re- 
presentar indivíduos, proteínas ou mesmo lu- 
gares, enquanto que os conectores 
representam a conexão que está presente 
entre cada par de nós. Esta representação 
gráfica é denominada de rede. 

Muitos exemplos de rede podem ser ci- 
tados, como redes de cadeia alimentar, am- 
plamente aplicadas na ecologia, redes neurais 
e de interação proteica usadas na biologia e 
ciências médicas, além da própria Worid Wide 
Web, que representa uma das maiores redes 
funcionais no mundo da comunicação e infor- 
mática. 

A análise matemática de redes é deno- 
minada de teoria de grafos, e consiste em um 
dos principais objetos de estudo da matemá- 
tica discreta. Desta forma, o termo “rede” 
representa as interações funcionais de um 
sistema, enquanto que o termo “grafo” enfa- 
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Tabela 1-6: Ferramentas utilizadas no estudo da BS. 


Área 


Tipo de análise 


Bioinformática 

Genômica 

Transcriptômica 

Proteômica 

Interatômica 

Interferômica/ 

microRNômica 

Epigenômica 

Metabolômica 

Fluxômica 

Biômica 

Glicômica 

Farmacogenômica 

Nutrigenômica 

Toxicogenômica 

Imunômica 


Funções biológicas por meio de ferramentas da informática 
Sequências de DNA 
Transcritos 
Proteínas 

Interações proteicas 
RNAi/miRNA 

Modificações na cromatina e no DNA 
Metabólitos 

Alterações dinâmicas de moléculas dentro de uma célula ao longo do tempo 

Bioma 

Totalidade de carboidratos 

Genes que definem o comportamento da droga 

Relação entre a dieta e os genes individuais 

Estrutura e atividade do genoma e os efeitos biológicos adversos na 
exposição a xenobióticos 

Função molecular associada aos transcritos de RNAm relacionados à 

resposta imune 


tiza as análises matemáticas deste sistema. 
Neste capítulo, contudo, usaremos ambos os 
termos como sinônimos. 

Historicamente, a teoria de grafos foi 
desenvolvida em 1736 pelo matemático suíço 
Leonard Euler na resolução do problema das 
sete pontes de Konigsberg, atualmente co- 
nhecida como Kaliningrado, na Rússia. A cida- 
de de Konigsberg é atravessada pelo Rio 
Pregei e consiste de duas grandes ilhas que 
eram conectadas entre si e com as margens 
opostas por sete pontes (Figura 1A-6). 0 pro- 
blema apresentado a Euler consistia em des- 
cobrir como caminhar pela cidade 
atravessando cada ponte apenas uma vez. A 
técnica desenvolvida pelo matemático suíço 
foi adaptar o mapa de Konigsberg, transfor- 
mando as margens e ilhas em nós e as pontes 
em conectores (Figura 1B-6). Euler submeteu 
a rede que desenvolveu a análises matemáti- 


cas, porém não encontrou solução para o 
problema. Contudo, a metodologia de análise 
de Euler foi um marco histórico na análise de 
problemas combinatórios, além de estabele- 
cer o conceito de topologia que é usado em 
BS (ver adiante). 

0 emprego da teoria de grafos e suas 
aplicações têm apresentado um crescimento 
explosivo devido a sua multidisciplinaridade e 
ao seu conceito de modelo que permite estu- 
dar um objeto específico sem negligenciar o 
meio em que este objeto se encontra. Por 
exemplo, é possível estudar determinado 
fármaco considerando a atividade que diver- 
sos compostos e enzimas poderiam exercer 
sobre ele. Nesses estudos pode-se construir 
uma rede onde os nós representam compos- 
tos e enzimas e os conectores representam 
se há ou não relação entre eles, permitindo 
analisar: 
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A 




Figura 1-6: (A) Representação parcial do mapa 
de Kõnigsberg e suas setes pontes. (B) 
Ilustração da rede desenvolvida por Euler. 

i) a conectividade dos compostos ou en- 
zimas, ou seja, que tipo de relação duas 
moléculas aleatórias podem apresentar 
na rede: 

ii ) a centralidade, que caracteriza as 
moléculas que apresentam maior in- 
fluência sob a ação do fármaco em 
questão. 

Conceitos básicos de grafos 

Considerando-se a estreita relação en- 
tre a BS e a teoria de grafos, alguns conceitos 
matemáticos podem nos ajudar a entender e 
empregar esta área do conhecimento com 
maior domínio e propriedade. Assim, prosse- 
guiremos com uma breve introdução sobre 
teoria de grafos e estrutura de rede, apresen- 
tando alguns descritores matemáticos fre- 


quentemente empregados em BS. 

Uma rede (ou grafo) G = (V, É) repre- 
senta uma combinação de nós ( V) e conecto- 
res ( E ) que ligam os nós. Em uma rede, o 
conjunto de seus nós é denotado por V[G), 
enquanto o conjunto de seus conectores por 
e[g). Dessa forma, o número total de nós em 
G é representado por n, e o número total de 
conectores é representado por m\ 

n{G) = \V{G)\em{G) = \E{G)\ 

Adicionalmente, conforme apresentado 
na Figura 2A-6, um conector E deve apresen- 
tar suas extremidades ligadas aos nós aeb (a 
G V e b G V), sendo chamado eab, E[a, b) ou 
apenas ab. Este conector pode ser represen- 
tado da seguinte forma: 

E = {{a, b) I a, b G V) 

As redes podem apresentar conectores 
diretos, ou seja, um conector orientado em 
determinada direção (exemplo a— Z>— >c), 
sendo assim chamadas de redes direcionadas 

A 



B 



Figura 2-6: Em (A) a representação da 
interação de dois nós vizinhos ( V = a, b) 
conectados pelo conector E(a, b). Em (B) a 
rede pode ser descrita como V = {a, b, c, d, e } 
e E = {ab, bc, cd, de} , com n = 5 { 5 nós de a a 
e) e m = 4 { 4 conectores de 1 a 4). 
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B 



Proteína Proteassoma Peptídeos 

Figura 3-6: (A) Rede direta; (B) Representação da via de degradação ubiquitina-proteassoma, um 
dos inúmeros tipos de redes direcionadas encontradas em sistemas biológicos. 


ou dígrafos (Figura 3A-6). Nos conectores E = 
(a, b) e E = ( b , c), podemos dizer que a é ante- 
cessor a b, e b é antecessor a c. Da mesma 
forma, b é sucessor de a e c é sucessor de b. 
Um dígrafo é definido por G = (V, E,f), sendo / 
uma função que associa cada elemento E a 
um par ordenado de nós em V Uma rede re- 
presentando os mecanismos de degradação 
ubiquitina-proteassoma de uma determinada 
proteína pode ser um exemplo de rede direta 
após o reconhecimento da proteína ubiquitina- 

A 


da por proteassomas, uma vez que não é 
possível reverter a degradação da proteína 
(Figura 3B-6). 

Podem também existir redes não direci- 
onadas (Figura 4A-6), que apresentam co- 
nectores orientados em ambas as direções 
(a<->b, b<r+c), não sendo possível assim esta- 
belecer antecessor ou sucessor. Um exemplo 
típico seria a reação reversível de um subs- 
trato A para um substrato B em uma via me- 
tabólica como, por exemplo, a formação de 


o — © — © 


B 


Adenosina monofosfato 



OH OH 


Figura 4-6: (A) Rede não direcionada; (B) Reação reversa de fosforilação e desfosforilação de 
adenosina difosfato, representando um exemplo de redes não direcionadas em sistemas 
biológicos. 
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diferentes moléculas fosforiladas de adenosi- 
na conforme a reação AMP<->-ADP-<->ATP (Fi- 
gura 4B-6). 

Em alguns casos, podem existir dois ou 
mais conectores que ligam os mesmos nós 
na rede. Esse tipo de interação é chamado 
multiconector, onde diferentes informações 
são representadas por cada conector, carac- 
terizando assim um multidígrafo (Figura 5-6). 



Figura 5-6: Multidígrafo G = (V, E), onde V- {a, 

b, c, d} e E = {ab, ac, ca, cb, cd} . 


Observa-se, assim, que as redes apresentam inte- 
rações entre os nós e que essas interações são delimi- 
tadas pelos conectores. Portanto, se E - [a, b ), logo os 
nós a eb são vizinhos ou adjacentes, e E[a, b ) é inciden- 
te aos nós a e b, lembrando que E(a, b) se refere ao 
conector. 

Uma das formas de representar e descrever tais in- 
terações entre os nós de uma determinada rede envol- 
ve o uso de matrizes. Assim, se considerarmos uma 
rede G contendo os nós v a , ... v n a matriz que descreve 
os elementos adjacentes em G é dada por: 

f 1 se viVj e E(G) 

= l 0 se v t vj € E(G ) 

As tabelas representadas na Figura 6-6 são um 
mecanismo visual para compreender como a matriz de 
uma rede é elaborada, tanto para redes não direciona- 
das (Figura 6A-6) quanto direcionadas (Figura 6B-6). 

Para as redes não direcionada (Figura 6A-6) e dire- 
cionada (Figura 6B-6), as matrizes são representadas 
abaixo: 


M = 


0 0 
0 0 
1 1 
0 0 


0 

0 

0 

1 


0 

0 

0 

0 


M = 


0 1 
1 0 
0 1 
0 0 


0 

1 

0 

1 


0 

0 

1 

0 


Rede direcionada 


Rede não direcionada 


Ao analisarmos uma matriz devemos considerar 
cada nó como uma coluna e uma linha distinta. Na aná- 
lise da primeira matriz iremos interpor o nó represen- 
tado na linha 1 (nó a) com o nó representado na coluna 
1 (nó a) da mesma forma que as tabelas representadas 
na Figura 6-6, e como não há interação de a com a, nos 
referimos como ü. Da mesma forma, se consideramos 
a linha 1 (nó a) e a coluna 2 (nó b ), há conexão, sendo 
representado por 1. Perceba que as matrizes são dife- 
rentes na rede direcionada e não direcionada devido à 
atribuição de uma conexão direcionada. Na matriz dire- 
cionada, tanto b está conectado a c quanto c está co- 
nectado a b. Contudo, na matriz não direcionada, 
somente c está conectado a b. 

Também podemos definir uma rede como completa 
se Ele) = V{gY 2 \ isto á, se dois nós selecionados alea- 
toriamente na rede G são adjacentes. Assim, uma rede 
completa tem n nós e é representada por K n , sendo o 
número de conectores em K n representado por / \ . 


Rede não direcionada 



Figura 6-6: (A) Rede não direcionada G = (V, 
E), onde V = {a, b, c, d} e E = {ab, bc, cd} ou E- 
{ba, cb, dc}, representados também na tabela 
pelo número 1, que indica a presença de um 
conector entre dois nós, exemplo E = {ab, ba} 
= 1. A ausência do conector entre dois nós é 
representada por ü. (B) Rede direcionada G = 
(E E), onde V - {a, b, c, d} e E = {ca, cb, dc}. 
Neste caso, a tabela de interações muda 
devido ao direcionamento das conexões, por 
exemplo E = {ca} = 1, mas E = {ac} = ü. 
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O conjunto de nós e conectores de uma 
rede pode ser apresentado em uma repre- 
sentação mais complexa e informativa, agre- 
gando pesos (atributos) associados aos nós e 
conectores (Figura 7-6). Redes que apresen- 
tam nós e conectores com atributos são cha- 
madas de redes ponderadas ( G,w ), onde G = 
( V,E ) e w = V, E G R, sendo R o conjunto dos 
números reais e w correspondente à função 
atributo. Por exemplo, pode-se representar 
uma rede neural onde o atributo indica a dis- 
tância que um sinal neural deve percorrer em 
relação ao local de origem. Assim, se P é uma 
trajetória na rede, w(p) é considerada a ex- 
tensão de P. Redes ponderadas são ampla- 
mente usadas na bioinformática, onde 
G,w(a,b) pode representar a quantidade e a fi- 
delidade de informações armazenadas em 
bancos de dados a respeito da interação entre 
a e b (Figura 7-6). 

Também podemos nos referir a uma re- 
de como bipartida (Figura 8-6) onde, em G = 
( V, É), V pode ser dividido em V x e V. Assim, 
cada nó de V x é adjacente aos vértices de V. 
Desta forma, se consideramos E ( a , b) signifi- 



Figura 7-6: Representação de uma rede 
ponderada descrevendo: i) diferentes tipos de 
nós, onde cada cor representa diferentes 
famílias de proteínas (por exemplo, os nós 
verdes representam serina/treonina cinases, 
nós azuis representam cinases dependentes 
de ciclinas e nós laranjas representam as 
tirosina cinases): ii) diferentes tamanhos de 
nós, com atributo w(a), representando o 
número de artigos w que citam a proteína a; e 
iii) a espessura do conector y, representando 
a fidelidade w da interação entre duas 
proteínas distintas. 


ca que a G V x , enquanto que b e V ou aEF v e 
b G V x . A aplicação de redes bipartidas na 
modelagem de redes biológicas pode ser vista 
em vários contextos, desde a análise de ge- 
nótipos e SNPs (s ingle-nucleotide poly- 
morphism) em diferentes populações até a 
representação de conexões ecológicas e rea- 
ções enzimáticas em vias metabólicas. 

0 modelo de redes visto até agora, na 
qual um conector se liga a dois nós, apesar de 
amplamente utilizado na avaliação da conec- 
tividade de redes biológicas, pode ser uma 
representação simplista quando se trata de 
redes metabólicas. A organização biológica 
que caracteriza as redes metabólicas em um 
contexto bioquímico consiste de complexas 
interações, frequentemente envolvendo di- 
versos substratos e produtos. Para melhor 
representar a complexidade de reações bio- 
químicas, usam-se redes conhecidas como 
hipergrafos (Figura 9-6). 

Os hipergrafos são caracterizados pela 
presença de hipervértices, que conectam mais 
de dois nós com propriedades distintas (Figu- 



E. co// 71 81 E.coli C3888 

Figura 8-6: Representação de uma rede 
bipartida, onde os nós cinzas e brancos 
representam diferentes grupos de uma 
análise. Por exemplo, cada grupo pode 
representar duas linhagens diferentes de E. 
coii. Para avaliar a eficiência de 
transformação das linhagens, estas foram 
divididas em quatro amostras (representadas 
pelos nós) e cada amostra foi incubada com 
diferentes plasmídeos. Os conectores 
apresentam os plasmídeos que obtiveram 
sucesso na transformação e são comuns 
entre as duas linhagens. 
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Figura 9-6: Representação de um hipergrafo. 
As regiões destacadas em várias cores 
caracterizam as diferentes propriedades ou 
atividades bioquímicas representadas na rede. 
Assim, cada cor estaria representando 
diferentes vias metabólicas (A, B e C). Os nós 
da rede indicam componentes presentes em 
cada uma das vias metabólicas e/ou 
participando de vias distintas nas regiões 
intersectadas. 

ra 9-6). Assim, os hipergrafos são frequente- 
mente usados em organizações bioquímicas, 
devido à intersecção de componentes com 
atividades em diferentes rotas metabólicas. 

Geralmente, as redes biológicas são exten- 
sas, apresentando um grande número de nós. 
Contudo, análises estatísticas indicam que, 
dentro de uma rede maior (Figura 10A-6), po- 
dem existir redes menores que participam da 
composição geral e possuem maior conectivi- 
dade entre si quando comparados à rede mai- 
or (Figura 1ÜB-6). Essas subredes de G = (V, 


B 



Figura 1Ü-6: (A) Rede de interações proteína- 
proteína representando em laranja a subrede, 
o qual foi destacada em (B). 


É) nada mais são que uma rede G } = E t ), 
onde VjQ VeEjQE. 

6.3. Estrutura de redes 

Uma das características de uma rede é 
sua conectividade (também referida como 
grau de nó), sendo a conectividade total de 
uma rede definida por C = E / N [N - 1), onde E 
representa o número de conectores eJVo nú- 
mero total de nós. 

Considere os nós K e K de uma rede. 
Representamos como um dos possíveis ca- 
minhos de V a a V e os vértices V b , V c e V d , for- 
mando um conector a cada dois vértices 
sucessivos, caracterizados por E p E 8 , E r E 7 
(Figura 11-6). 0 nó que originou o caminho é 
chamado de nó inicial, enquanto que o último 
nó do caminho é chamado de nó final. Um ca- 
minho onde o nó inicial coincide com o nó fi- 
nal, sem repetições de conexões 
intermediárias, é chamado de circuito. Usando 
a mesma rede da Figura 11-6, <d, b, c, e, d> 
formam um circuito. 0 comprimento de um 
caminho ou circuito consiste do número de 
conectores que pertencem ao caminho (ou 
circuito) ou, no caso de uma rede ponderada, 
pela soma dos atributos (ou pesos) dos co- 
nectores. 



Figura 11-6: Esquema representando uma 
rede, onde V = {a, b, c, d, e} eE = {E p E 2 , E 3 , E 4 , 
Ej> E & Ey, E 8 } . 

Um caminho de comprimento k tem exatamente k + 
1 nós, enquanto que um circuito de comprimento k tem 
k = v nós. Se calcularmos o comprimento de K a K, 
com caminho E r E 8 , E r E 7 temos k = 4 conectores com 
4 + 1 nós. Para o circuito <d, b, c, e , d> que tem como 
caminho E s , E s , E 3 , E 7 temos k = 4 conectores, com 
quatro nós diferentes. 
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Uma importante análise em uma rede 
consiste em caracterizá-la conforme sua dis- 
tribuição de caminhos geodésicos. Um cami- 
nho geodésico é definido como a via mais 
curta dentro de uma rede entre dois nós 
quaisquer (/ e /), sendo representado por ô (/, 
j) em G. Um bom exemplo disso é o experi- 
mento realizado por Stanley Milgram em 
1960, onde cartas foram enviadas a indivídu- 
os aleatoriamente. A missão de cada indivíduo 
era enviar a sua carta a alguém que conside- 
rasse capaz de fazer com que as cartas che- 
gassem ao seu destino final. 

Essa experiência relativamente simples 
conclui que existem aproximadamente seis 
graus de separação entre dois indivíduos 
quaisquer no mundo. Da mesma forma, esse 
experimento foi a primeira demonstração 
significativa do efeito "mundo pequeno" (ou 
do inglês, s malt world), que estabelece que as 
redes apresentam nós conectados entre si 
formando um caminho mais curto entre to- 
dos os nós. 

0 comprimento médio de caminhos entre os nós (/, 
j) é definido pelo valor médio de conectores entre os 
nós e pode ser calculado por: 

r 2 yJV yW r 

~ N(N- 1 ) Li = 1 

assumindo-se que ô min (/, j) é o caminho mais curto en- 
tre os nós i e j, sendo N o número total de nós. Adicio- 
nalmente, o diâmetro da rede é definido como: 

D = max S mín (i,j ) 

G 

e representa o maior comprimento entre dois nós. Es- 
tudos recentes têm revelado que redes biomolecula- 
res, sociais e tecnológicas apresentam valores de 
comprimento médio de caminhos e diâmetro relativa- 
mente pequenos se comparados ao tamanho da rede, 
apresentando ordem de grandeza log («) ou menor 
quando o tamanho da rede é n. Da mesma forma, a 
densidade de uma rede é calculada com base no nú- 
mero de conexões que cada nó possui, sendo definida 
como: 

2m 

P = 

P n(n- 1) 

Avaliar a densidade de uma rede repre- 
senta avaliar o nível de conectividade, tor- 
nando-se muito importante na definição de 


suas propriedades, como veremos adiante. 
Por exemplo, ao analisarmos a rede de inte- 
ração de uma doença contagiosa, a possibili- 
dade desta doença até então controlada 
tornar-se uma epidemia depende principal- 
mente de duas variáveis: o tipo de agente in- 
feccioso e a alta densidade de conexões (rotas 
de transmissão). 0 procedimento de quaren- 
tena (isolamento) quando um determinado 
indivíduo apresenta os sintomas da doença é 
justamente reduzir a conectividade da rede de 
transmissão. 

Alguns modelos de rede (como as redes 
de livre escala e hierárquica, discutidas adi- 
ante no item 6.5.) podem apresentar cluste- 
rização, isto é, os nós tendem a se agrupar. 
Isso significa que se um nó A se liga ao nó B, e 
o nó B se liga ao nó C, então há grandes 
chances de A se ligar a C também. Assim, a 
rede é composta de centenas de triângulos, 
ou seja, grupos de três nós conectados entre 
si, onde cada lateral de um triângulo pode 
pertencer a outro triângulo. 

Podemos quantificar a fração de triplos nós que 
apresentam um terceiro conector preenchendo um tri- 
ângulo pelo coeficiente de clusterização: 

3 x número de triângulos na rede 
número de nós triplamente conectados 

Na equação, o número três presente no numerador 
é devido ao fato que cada lateral de um triângulo con- 
tribui com outros três triplos nós, além de garantir que 
C seja 0 < C s 7. Dessa forma, o coeficiente de clusteri- 
zação avalia a probabilidade dos nós i e j serem vizi- 
nhos, já que ambos são vizinhos do nó h. Assim, o 
coeficiente de clusterização local de um nó i pode ser 
determinado por: 


' k(k- 1) 

onde um nó i tem k vizinhos com e conexões entre eles. 
Contudo, pode-se também atribuir o coeficiente de 
clusterização média para a rede total, sendo definido 
por: 



Ao analisarmos uma rede de processos biológicos, 
notamos que esta apresenta um maior coeficiente de 
clusterização média quando comparado a uma rede 
aleatória. Isso possivelmente se deve ao fato de pro- 
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cessos celulares ocorrerem de forma dependente da 
organização de diversos subconjuntos (dusters) de bi- 
omoláculas. 

Em uma rede consideramos como sendo o grau de 
um nó o número de conectores k que incidem a este 
nó. Assim, a distribuição do grau P{k) é definida por ser 
uma fração de nós com grau k dentro de uma rede. 
Então sendo k= 0, 1, 2,... P{k) indica a probabilidade de 
determinado nó ter grau k. A distribuição de grau é de- 
finida por: 

P(k ) = ^ 

onde temos n nós na totalidade da rede e n k representa 
a quantidade de nós com grau k. 

Uma rede aleatória que apresenta n nós conectados 
ou não com probabilidade p, tem uma distribuição bi- 
nominal de grau com parâmetros N- 1 ep: 

P(k l = k) = C^ 1 p k (l-p) N - 1 ~ K 

Outras redes, no entanto, tem distribuição de grau 
bem diferente. Redes de livre escala (como a maioria 
das redes biológicas) apresentam distribuição do grau 
que segue uma Lei de Potência P[k) ~kn, y >1 (ver adi- 
ante). 

Outra estimativa numérica pode ser feita, a função 
de distribuição cumulativa avalia a probabilidade de 

um nó ter um grau maior do que k. 

00 

p k='^ j Pk ■ 

k'=k 

Agora, o que aconteceria se, por acaso, 
resolvessemos excluir alguns poucos nós da 
rede? Certamente iríamos alterar o compri- 
mento de alguns caminhos e circuitos da rede 
de forma pouco significativa. Contudo, se 
formos excluindo mais nós, progressivamen- 
te, veremos que a comunicação da rede fica 
cada vez mais esparsa, até se tornar desco- 
nectada. A capacidade de uma rede de tolerar 
a deleção de nós é chamada de resiliência. 

Em 2ÜÜÜ, um estudo conduzido por Al- 
bert-László Barabási e colaboradores mos- 
trou que a Internet pode ser altamente 
resiliente na remoção de nós aleatórios. Isso 
se deve ao fato de que a quantidade de nós 
com baixo grau de interação é maior em uma 
rede do que nós com alto grau de interação. 
Em compensação, se a remoção iniciar a par- 
tir dos nós com mais alto grau de interação, a 


alteração será brusca. Neste caso, observa- 
se um aumento da distância entre os nós, de 
forma que apenas poucos nós precisam ser 
removidos para destruir a comunicação da 
rede. Assim, fica claro que a Internet apre- 
senta baixa resiliência na remoção de nós 
com alto grau, tornando-se vulnerável a ata- 
ques de hackers. 

Outro exemplo seriam as redes de inte- 
ração proteína-proteína. Estas redes geral- 
mente apresentam muitas proteínas com 
poucas interações e algumas proteínas pos- 
suindo muitas interações (chamadas de hubs, 
ver adiante). Desta forma, redes de interação 
proteína-proteína são resilientes à deleção de 
nós aleatórios, porém extremamente vulne- 
ráveis a ataques em proteínas hubs. 

Os nós de uma determinada rede po- 
dem apresentar tendências de conexão. Em 
outras palavras, duas redes completamente 
diferentes topologicamente podem apresen- 
tar a mesma distribuição do grau. Assim, em 
uma rede é preciso considerar o padrão de 
correlação do grau dos nós, onde a conectivi- 
dade de um nó reflete nas suas possibilidades 
de ligação. 

A tendência de conexão que uma rede 
apresenta pode ser chamada de assortativi- 
dade e desassortatividade. A assortatividade 
significa que os nós de uma rede apresentam 
uma tendência a interagirem com outros nós 
semelhantes, por exemplo, nós do tipo A in- 
teragem preferencialmente com nós também 
do tipo A (Figura 12A-6). Vértices com alto 
grau tendem a interagir com vértices que 
também apresentam alto grau. No entanto, 
chamamos de desassortatividade se os nós 
de uma rede interagem preferencialmente 
com nós diferentes dele mesmo, por exem- 
plo, nós do tipo A tendem a interagir com nós 
do tipo B. Neste caso, um nó com alto grau 
tem tendência a interagir com nós que apre- 
sentem baixo grau (Figura 12B-6). 

A correlação de grau dos nós i e j é feita por distri- 
buição de probabilidade conjunta P[k p /c ; ) = P(k) P[k ; ). 
Podemos ainda calcular a assortatividade ou desas- 
sortatividade da rede como um todo, considerando: 
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= Z i eii - a,6, 

r “ 1 - Z t a^, 

Se r = 1 a rede á considerada assortativa, enquanto 
que se r = - 1 , a rede é completamente desassortativa. 

Caracteristicamente, redes assortativas 
são mais resilientes e apresentam hubs bem 
conectados, enquanto que redes desassorta- 
tivas são redes mais vulneráveis com nós co- 
nexos a hubs esparsos (Figura 12-6). 

A conectividade de uma rede também 
pode ser avaliada pela teoria da percolação. 
Essa teoria tem por objetivo estudar a conec- 
tividade da rede pela avaliação de sua arqui- 
tetura, caracterizando a distribuição do 
tamanho dos dusters e descrevendo como 
ocorre a transferência de informações, por 
exemplo, de A para B. 

Redes aleatórias caracteristicamente 
apresentam baixa tendência em possuir pe- 
quenos dusters isolados e uma grande pro- 
babilidade em formar um componente 
conectado gigante. Como visto anteriormente, 
determinadas redes são altamente resilentes 
à deleção aleatória de nós. A variação na fra- 
ção dos nós no maior componente da rede 
(componente gigante) é a forma mais fácil de 


calcular a resiliência. Imagine dois nós conec- 
tados na rede. Se estes nós pertencem a um 
componente gigante, há grande probabilidade 
de se comunicarem com uma extensa pro- 
porção de nós da rede. No entanto, nós que 
participam de pequenos componentes comu- 
nicam-se apenas com uma parte reduzida da 
rede. Essa capacidade de comunicação é res- 
ponsável pela forma como a informação é 
transferida de um ponto a outro. Assim, as- 
sociamos a resiliência com a percolação local 
(refere-se aos nós), enquanto que a percola- 
ção de ligação (refere-se aos conectores) es- 
tá relacionada ao processo de dispersão 
(Figura 13A-6). 

Também podemos considerar os nós de 
uma rede como ocupados (funcionais) ou de- 
socupados (falhos), dependendo da sua fun- 
cionalidade. A probabilidade de um nó estar 
ou não ocupado pode ser uniforme ou pode 
depender do grau do nó, sendo que os nós 
funcionais da rede formam o componente gi- 
gante em um modelo de percolação. Assim, 
os nós ou conectores falhos não participam 
da transferência de informação, e igualmente, 
não participam do componente gigante (Figu- 
ra 13B-6). Dessa forma, ao observar a propri- 



Figura 12-6: Ilustração representando em (A) uma rede assortativa com nós bem conectados 
que apresentam conexões com outros nós também fortemente conectados. Em (B), uma rede 
desassortativa, onde os poucos nós que apresentam mais conexões interagem com nós menos 
conectados, resultando em uma rede menos densa. 
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Percolação local Percolação de ligação 


B 


Figura 13-6: (A) Redes de percolação local e 
de ligação, onde os nós sólidos estão 
ocupados ou funcionais, enquanto que os nós 
brancos são desocupados ou falhos. (B) 
Representação do componente gigante. Após 
o surgimento de nós e conectores falhos, sua 
proporção é alterada e, por conseguinte, as 
possibilidades de transferência de 
informações. 

edade de percolação de um cluster, conside- 
rando uma probabilidade de ocupação variá- 
vel, podemos determinar que isso afeta 
diretamente a conectividade de uma rede, 
tornando-a altamente resiliente ou não. Po- 
rém, ao combinarmos a percolação local e de 
ligação, teremos um modelo robusto contra 
falhas de nós ou conectores. 

Os modelos de percolação são utilizados 
em muitas redes, porém um dos modelos 
mais interessante é o da dispersão de uma 
doença. Nesse modelo, cada nó representa o 
hospedeiro e os conectores representam a 
capacidade de transmissão da doença entre 
um hospedeiro e outro. 0 nó (indivíduo hos- 
pedeiro) está ocupado se for suscetível à do- 
ença, enquanto que um nó que representa um 
indivíduo que tomou a vacina seria considera- 
do como desocupado. Da mesma forma, os 
conectores são considerados ocupados se há 
possibilidade de transmissão (Figura 14-6). 


Levando em conta este modelo, o início de 
uma epidemia representa a transição de per- 
colação. 

Apesar de ter sido originalmente de- 
senvolvida com o objetivo de responder às 
perguntas em química orgânica, os modelos 
de percolação têm sido usados com sucesso 
para estudar diversos fenômenos, como 
transferência de sinal em neurônios e condu- 
tividade elétrica. Em 1987, Robert H. Gardner 
foi um dos primeiros pesquisadores a usar a 
teoria de percolação na Ecologia da Paisagem, 
sendo útil também na avaliação de corredo- 
res ecológicos e redes de incêndios florestais. 



Figura 14-6: Modelo simplificado de dispersão 
de uma doença considerando um grupo de 
trabalho em uma empresa. Suponhamos que 
o indivíduo central contraiu uma doença virai 
de fácil transmissão, como a gripe simples. 
Assim, todos os indivíduos com os quais ele 
entrou em contato neste período também 
contraíram a doença (nós azuis), com exceção 
daqueles que foram vacinados (nós brancos). 
Neste caso, além de não contraírem a doença, 
também não a dispersaram. Os conectores 
pontilhados indicam que não houve interação 
física durante o período passível de contrair a 
doença entre o indivíduo saudável com o 
contaminado. Desta maneira, os indivíduos 
representados pelo nó verde claro, apesar de 
não terem sido vacinados, não contraíram a 
doença por não entrarem em contato com 
indivíduos contaminados. 
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6.4. Propriedades de rede 

Diversas propriedades são regularmen- 
te empregadas na análise de redes biológicas, 
cada uma fornecendo informação sobre as 
interações e/ou componentes de um deter- 
minado sistema. Estas propriedades podem 
ser referentes a nós individuais, isto é, grau de 
nó ou node degree, ou podem contemplar a 
rede como um todo como é, por exemplo, o 
caso da modularização e do diâmetro da rede. 

Em uma análise de biologia de sistemas, 
a análise estatística destas propriedades pos- 
sui papel crítico na geração de dados conclu- 
sivos e confiáveis, constituindo-se assim em 
redes capazes de descrever com alto grau de 
fidelidade um determinado modelo biológico, 
de identificar alvos proteicos críticos na rede 
ou no desenvolvimento de caminhos molecu- 
lares. 

Modularidade 

Uma das principais características 
quando nos referimos a propriedades da to- 
pologia de redes é a chamada modularidade 
ou clusterização. 0 conceito de modularidade 
é antigo e já amplamente usado em outras 
áreas do conhecimento, como nas ciências 
sociais. Dentro das ciências biológicas, é um 
conceito comum nas áreas da biologia evolu- 
tiva, biologia molecular, biologia de sistemas e 
biologia do desenvolvimento. 

Todas as ideias de modularidade giram 
em torno do conceito de padrões de conecti- 
vidade, onde seus elementos constituintes 
estão agrupados em subconjuntos altamente 
conectados. De forma geral, a modularidade é 
um princípio de união entre diferentes tipos de 
elementos e conexões naturalmente forma- 
das no meio biológico, como na interação en- 
tre indivíduos de mesma espécie. Um exemplo 
é a Pollenia rudis, uma espécie de mosca co- 
nhecida como duster fly em decorrência de 
seu hábito de se agrupar com indivíduos da 
mesma espécie. 

Este princípio é visto em todos os luga- 
res, seja na nossa tendência de formar socie- 
dades e grupos preferenciais de interação 


interpessoais ou na nossa tendência de orga- 
nizar objetos por seu tipo, função e cores, 
dentre outros. Em nível molecular é visto, por 
exemplo, em elementos que atuam num 
mesmo processo biológico, como conjuntos 
de moléculas de RNA responsáveis pela de- 
gradação e síntese de ácidos nucleicos ou 
grupos de proteínas que atuam num mesmo 
processo biológico como a replicação de DNA 
e a transcrição gênica. 

Existem dois tipos distintos de módulos: 

i) Módulo Variacional: apresenta carac- 
terísticas que variam entre seus com- 
ponentes e são relativamente 
independentes de outros módulos, po- 
rém possuem um número considerável 
de ligações com outros módulos; 

ii) Módulo Funcional: possui elementos 
que normalmente atuam juntos em al- 
guma função fisiológica distinta e são 
semiautônomos (quasi-autonomous) de 
outros módulos. Esses módulos com- 
preendem a maioria dos módulos vistos 
em redes biológicas. 

Módulos variacionais podem ser exem- 
plificados na Figura 15B-6 e C, representando 
a formação de uma mandíbula de rato. Ape- 
sar de se tratar da diferenciação de um teci- 
do, podemos usá-la como modelo variacional 
devido ao fato de diferentes proteínas e genes 
serem responsáveis pela formação de uma 
unidade estrutural única (o ramo ascendente 
e da região alveolar). Desta maneira, é uma 
unidade estrutural (um único osso) que se 
origina de diferentes módulos. Assim, o mó- 
dulo variacional consiste numa integração de 
vários de genes que dividem efeitos pleiotró- 
picos entre si e que possuem poucos efeitos 
pleiotrópicos com outros rtusters, sendo 
praticamente independente. 

Módulos de genes de desenvolvimento 
embrionário, relacionados à diferenciação ou 
formação de padrões corporais, tendem a ser 
quase independentes de outros módulos, uma 
vez que erros na sua expressão ou atuação 
podem ser letais para o embrião. Por isso, 
esses módulos de desenvolvimento tendem a 
depender de elementos dentro do próprio 
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grupo para sua expressão. Podemos visuali- 
zar um exemplo de um módulo funcional na 
Figura 15A-6. 



Figura 15-6: Exemplos de uma rede com 
diferentes módulos representados. Os 
módulos variacionais B (azul) e C (verde) se 
encontram praticamente independentes do 
módulo A (vermelho), porém possuem 
proteínas em comuns entre si. Contudo, o 
módulo A pode ser considerado funcional, 
uma vez que possui apenas uma conexão com 
cada outro módulo, sendo praticamente 
independente. 

Ao determinarmos a quantidade e o tipo 
de módulos presentes em uma rede devemos 
levar em consideração o coeficiente de agru- 
pamento (C ; ) ou clusterização. 0 coeficiente 
analisa a tendência de um nó de se associar 
com seus vizinhos (“diquishness"), onde "cli- 
que” á definido como um grafo maximamente 
conectado. 

Como mencionado anteriormente, a clusterização é 
dada pela fórmula Cflnlk^- 1), onde k t é o tamanho da 
vizinhança de vértices (nós) do vértice i, e n é o número 
de conectores na vizinhança. Assim, quanto maior o 
coeficiente de clusterização, mais conectado é o dus- 
ter. Evolutivamente, as proteínas que compõem módu- 
los altamente agrupados tendem a ser conservadas ou 
perdidas juntamente, caso haja uma variação dentro do 
grupo. 

Outro conceito essencial para entender 
a formação de um cluster em um sistema bi- 
ológico é a presença de hubs. Os hubs podem 
ser classificados em dois grupos: 

i) porty hubs, proteínas altamente liga- 
das dentro do seu próprio módulo (in- 


tra-módulo), ou seja, ligadas no mesmo 
tempo e/ou espaço, 

ií) dote hubs, que são hubs que se ligam 
a diferentes proteínas em diferentes 
módulos (inter-módulo), ou seja, dife- 
rentes tempo e/ou espaços, conse- 
quentemente apresentando um papel 
global na rede (Figura 16-6). Estes ter- 
mos podem ainda receber denomina- 
ções específicas no contexto do 
conceito de centralidades (ver adiante). 


Módulo 1 Módulo 3 



Figura 16-6: Diferentes tipos de centralidade 
em uma rede biológica. Em verde são apre- 
sentadas proteínas envolvidas em porty hubs 
e encontradas em módulos. Em amarelo 
encontram-se as proteínas não-hub/não- 
gargalo, que são aquelas que não possuem 
alto valor de grau de nó ou betweenne ss, 
sendo consideradas componentes funcionais 
dos módulos. Em azul estão as proteínas hub- 
gargalo ( dote-hub ) que possuem alto valor de 
grau de nó e de betweenne ss, sendo 
consideradas fundamentais para o 
funcionamento de redes. Em vermelho estão 
identificadas as proteínas do tipo gargalo, 
com alto valor de betweenness e essenciais 
na ligação entre módulos e processos 
biológicos. 

Os porty hubs são componentes clássi- 
cos de módulos funcionais, uma vez que estes 
são quase independentes de outros módulos, 
enquanto dote hubs são fundamentais para 
módulos variacionais, pois estes se ligam a 
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outros módulos. 

Assim, uma mutação em um porty hub 
vai afetar principalmente as proteínas refe- 
rentes ao seu próprio módulo, enquanto a 
mutação em um dote hub (Figura 16-6) pode 
afetar vários módulos. Contudo, não existe 
diferença de importância entre porty ou dote 
hub. A deleção de um hub em um módulo 
funcional pode ser tão letal quanto a deleção 
em um módulo variacional. 

Baseado em dados estruturais, os hubs 
podem ser ainda classificados em singiish 
(com uma ou duas interfaces) e multi-interfa- 
ce (com mais de duas interfaces). Hubs com 
interface singiish somente se ligam a outras 
proteínas de maneira alternada e transitória, 
enquanto hubs multi-interface se ligam a di- 
ferentes proteínas concomitantemente. 

Ontologias Gênicas 

Nos últimos anos, o desenvolvimento e 
uso de técnicas de análise como microarran- 
jos, ChIP-chip e espectrometria de massas e 
suas aplicações no estudo de cada vez mais 
organismos gerou um grande acúmulo de da- 
dos genômicos e proteômicos. A leitura e in- 
terpretação simples e concisa destes vem 
requerendo o desenvolvimento de novas 
abordagens, contexto no qual, em 1990, foi 
criado o chamado Gene Ontoiogy Project. 

Ontologia gênica refere-se ao produto 
de um determinado gene e à função que ele 
desempenha na maquinaria celular. São clas- 
sificadas em três níveis hierárquicos: 

i) Componente celular, descrevendo a 
localização da proteína na célula; 

ii) Processo biológico, referindo-se à 
série de eventos realizados por uma ou 
mais funções celulares; 

Ui) Função molecular, descrevendo a 
atividade que uma dada proteína de- 
sempenha no meio celular. 

Essas informações são guardadas em 
forma de “anotações ontológicas”, onde cada 
uma possui um número de identificação e se 
encontram disponíveis em bancos de dados 
como www.geneontology.org. 


Da mesma forma, essas anotações não 
são restritas a humanos, mas abrangem di- 
versos organismos modelo como Mus 
musculus, Goiius goiius, Soccharomyces 
cerevisioe, Coenohobditis eiegons e 
Escherichio coti, além de outros organismos 
não-modelo mas que já possuem alguma 
anotação. 

De um modo geral, a ontologia gênica 
tem como função, em uma rede de interação 
proteína-proteína, agrupar proteínas que fa- 
çam parte de um mesmo processo biológico. 
Em biologia de sistemas o emprego de onto- 
logias gênicas pode se mostrar muito útil pa- 
ra direcionar a análise da rede, possibilitando 
a verificação dos tipos de processos biológi- 
cos existentes na rede e das proteínas pre- 
sentes. Um modelo hipotético de como uma 
rede poderia se apresentar em termos de on- 
tologias gênicas se encontra na Figura 17-6, 
onde diferentes nós poderiam estar relacio- 
nados a diversos processos. 



Figura 17-6: Modelo hipotético da presença de 
ontologias gênicas em uma rede. Na figura 
acima, cada cor representa um processo 
identificado. É importante ressaltar que uma 
proteína pode estar presente em mais de uma 
ontologia. Da mesma forma, uma ontologia 
pode estar dentro de outra. Como por 
exemplo, o quadrado amarelo poderia 
significar transcrição, enquanto o quadrado 
azul claro (inserido no amarelo) poderia 
significar apenas o complexo de iniciação da 
RNA polimerase II. 

A Figura 18-6 mostra um exemplo de 
aplicação de ontologias gênicas em uma rede 
biológica. Nessa análise foi utilizado o pro- 
grama Biologicol NetWork Gene Ontoiogy 
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(BiNGO) 2.44, um piug-in do programa 
Cytoscape. É possível, assim, identificar pro- 
teínas ou genes com efeitos pleiotrópicos, a 
saber: a proteína Tp53, a proteína breast cân- 
cer 7 (BRCA1) e a proteína bloom syndrome 
protein (BLM), as quais se encontram nas três 
ontologias da rede (reparo de DNA, regulação 
positiva da transcrição e ciclo celular). 



Figura 18-6: Exemplo de uma rede analisada 
pelo piugin BiNGO 2.44, o qual analisa as 
principais ontologias gênicas. A rede mostra 
três processos biológicos (GOs): /) Regulação 
do ciclo celular (nós de cor laranja): ii) 
Regulação positiva da transcrição (nós de 
formato quadrado); Ui) Resposta a dano de 
DNA (nós com a linha azul). É possível 
observar que mais de um nó compõe 
diferentes GOs. 

Centmlidade s para nós 

Como vimos até então, a grande vanta- 
gem da biologia de sistemas é permitir a vi- 
sualização dos componentes moleculares de 
um sistema biológico de forma dinâmica e 
global. Contudo, quando falamos de uma re- 
de, temos que levar em consideração todas 
suas estruturas, como hubs e módulos. Deste 
modo, o objetivo da análise de centralidades é 
procurar o elementos mais importantes na 
topologia geral da rede. 


Grau de nó 

Um dos parâmetros básicos de análise 
topológica é o parâmetro de grau de nó (ou 
node degree), referente à quantidade de nós 
adjacentes (diretamente conectados) a outro 
determinado nó. Esses nós que apresentam 
uma grande quantidade de conexões são cha- 
mados de hubs, os quais são conectados a 
outros hubs ou nós com menos conexões (Fi- 
gura 16-6). Como veremos posteriormente, 
uma rede de livre escala é definida por uma 
lei de potenciação, o que significa que essa 
rede terá poucos nós altamente conectados. 
0 grau de nó é referente ao valor distribuição 
de nó, P(k), que informa a probabilidade de um 
nó ter k conexões, conforme visto em Estru- 
tura de redes. 

Numa visão biológica, podemos exem- 
plificar um hub como uma proteína que se liga 
a várias outras e acaba possuindo uma função 
regulatória importante na rede. Normalmen- 
te, proteínas consideradas apenas hubs se 
encontram dentro de módulos. A perda de 
conexões de uma proteína hub pode lhe tirar 
esta condicão modular. Sua delecão em uma 
rede de interação proteína-proteína poderia 
afetar a ação de diversas proteínas vizinhas e 
até mesmo na formação de módulos. 

Betweenness 

0 parâmetro denominado betweenness 
é definido como o número de caminhos mais 
curtos que passam por um único nó, esti- 
mando a relação entre eles. Por exemplo, pa- 
ra calcular o valor de betweenness de um nó 
n é calculado o número de caminhos mais 
curtos entre i e j, e a fração deste caminhos 
que passam pelo nó n. Deste modo, um nó n 
pode ser atravessado por diversos caminhos 
alternativos, que ligam i e j. 

Matematicamente, o valor de betweenness é dado 
pela seguinte fórmula: 

g(/(") 

i*n*jev &ij 

onde G-j representam caminhos geodésicos entre os 
nós i e j, e <7 y («) á o total destes caminhos mais curtos 
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que passam por n. 

Por exemplo, uma proteína com alto 
valor de betweenne ss apresentaria uma ele- 
vada capacidade de interação e/ou sinalização 
com outras proteínas, processos biológicos 
ou dusters. Uma proteína com tais caracte- 
rísticas é chamada de bottleneck ou gargalo. 
Na Figura 16-6, temos dois exemplos de uma 
proteína com alto valor de betweenne ss. 

Não existe uma maneira óbvia de se en- 
contrar proteínas gargalo. Porém, é possível 
que rotas de sinalização possuam grande in- 
cidência de proteínas gargalo, uma vez que 
são necessárias para sinalização entre com- 
partimentos e processos biológicos distintos. 
Contudo, proteínas gargalo não necessaria- 
mente possuem um grande número de inte- 
rações com outras proteínas. 

Closeness 

0 valor de closeness pode ser entendido 
como o caminho mais curto entre um nó n e 
todos os outros nós da rede, uma tendência 
de aproximação ou isolamento de um nó (Fi- 
gura 19-6). Um alto valor de closeness indica 
que todos os outros nós estão próximos do 
nó n, enquanto que um baixo valor indicaria 
que os outros nós encontram-se distantes. 



Figura 19-6: Caracterização de nós com 
diferentes valores hipotéticos de closeness. 
Os nós em roxo, dadas as suas maiores 
conectividades com a rede no geral, possuem 
um valor maior de closeness, enquanto que 
os nós em verde, por possuírem poucas 
conexões com a rede, apresentam baixo valor 
de closeness. 

Este parâmetro é dado pela fórmula: 


Cl0 bb - £ w g ydtStto-W) 

onde o valor de closeness de um nó v [C/o(v)j á deter- 
minado através do cálculo e somatório dos caminhos 
mais curtos entre um nó v e todos outros nós w 
[dist{v,w)] dentro da rede. 

Uma proteína com alto valor de 
closeness poderia ser considerada relevante 
para muitas proteínas, porém irrelevante para 
outras. Em termos biológicos, ela seria im- 
portante na regulação de muitas proteínas, 
porém sua atividade pode não influenciar ou- 
tras. Ao compararmos essas informações 
com módulos podemos dizer que uma rede 
com uma média de closeness alta é mais pro- 
vável de estar organizada como um módulo 
funcional, enquanto uma com baixo valor de 
closeness é mais provável de estar organiza- 
da como um módulo variacional. 


Diâmetro 

0 diâmetro pode ser considerado um 
dos primeiros parâmetros referentes à 
“compactação”, isto é, proximidade dos nós 
da rede. Ele indica a distância entre os dois 
nós mais afastados entre si de uma rede. 
Sendo assim, definimos que uma rede possui 
um alto diâmetro quando a distância geral 
entre os nós é muito ampla. Quando a distân- 
cia entre os nós é pequena, então o diâmetro 
é baixo. Deste modo, uma rede com baixo di- 
âmetro é considerada mais completa, uma 
vez que suas proteínas estão mais interliga- 
das entre si. 

Um baixo diâmetro pode indicar que as 
proteínas de uma determinada rede possuem 
uma maior facilidade de se comunicar e/ou 
influenciar umas as outras, apontando para 
uma relação funcional co-evolutiva (Figura 
20 - 6 ). 

Os parâmetros de centralidades podem 
ser alterados com a adição ou deleção de nós 
ou conexões na rede (Figura 21-6). Como já 
mencionado, em um sistema molecular, a 
perda de uma conexão pode ser considerada a 
mudança de um domínio, impedindo a ligação 
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Figura 20-6: Em (A) uma rede com alto 
diâmetro e em (B) rede com baixo diâmetro. 
Pelo fato dos nós da figura A estarem mais 
interligados entre si, a rede é considerada 
mais “compacta”, pois seus nós mais 
facilmente podem influenciar uns aos outros. 
Entretanto, em B, a rede possui muito menos 
conexões, portanto a deleção de um nó irá 
afetar a rede de um modo mais sutil. 

de duas proteínas ou a mudança de um pro- 
duto gênico, criando proteínas anormais que 
não mais farão as mesmas conexões. Contu- 
do, mudanças topológicas nas redes biológi- 
cas são processos normais durante a 
evolução. A deleção e a duplicação de um ge- 
ne, assim como a perda de interações, sejam 
pela mudança estrutural ou de função, são 
processos muitas vezes selecionados e ne- 
cessários para sobrevivência celular. 

Centralidade para conectores 

Os elementos mais informativos de uma 
rede de interação podem ser avaliados atra- 
vés da análise da centralidade. Dentre as 
possíveis centralidades avaliadas, o 
betweenne ss de um conector pode medir a 
influência de certos conectores no fluxo de 
informações entre os componentes da rede. 

0 betweenness de um conector e é sim- 
plesmente o número de caminhos mais cur- 
tos entre pares de nós que percorrem e. Se 
uma rede contém módulos que são conecta- 
dos por poucos conectores intermodulares, 
então os caminhos mais curtos entre os dife- 
rentes módulos devem passar por estes pou- 
cos conectores. Assim, os conectores unindo 
módulos terão altos valores de 
edgebetweenness (Figura 22-6). 

Neste caso, os pares de nós unidos pe- 
los conectores serão de diferentes módulos. 
Se o valor de edgebetweenness de um co- 



Figura 21-6: Modificações na topologia de 
rede podem alterar as centralidades. Devido à 
perda de conexões com nós fora do módulo, 
os nós marcados pelos quadrados foram 
transformados em porty-hubs (nós verdes), 
deixando de ser bubs-gargalos (nós azuis). 
Porém, marcados pelos quadrados pontilha- 
dos, há nós que além de ganharem conexões, 
passaram a se ligar a outros módulos, saindo 
do estado de não-bub/não-gargalo para hub- 
gargalo (nós amarelos). Marcados por círcu- 
los, os nós antes gargalos (nós vermelhos), 
agora pela perda de uma conexão, se tornam 
não-bubs/não-gargalos. Por fim, os nós 
marcados pelos círculos pontilhados, devido à 
perda de muitas conexões (nó central) e ao 
ganho de uma conexão (nó acima), se tornam 
gargalos, perdendo os status de hub- gargalo 
e de não-bub/não-gargalo respectivamente. 

nector é baixo, esse conector provavelmente 
fará parte do módulo, uma vez que dentro do 
módulo os nós são mais interligados entre si. 
Portanto, edgebetweenness é a frequência de 
um conector que se coloca sobre os caminhos 
mais curtos entre todos os pares de nós. Em 
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Módulo 2 



edgebetweenness. Conectores em vermelho 
apresentam valores altos de betweenness, 
pois representam o caminho mais curto do 
fluxo de informação entre os três módulos 
representados. 

uma rede proteica, um conector com alto va- 
lor de betweenness provavelmente represen- 
ta o caminho mais curto de comunicação 
entre dois processos biológicos. 

Como conectores com altos valores de 
betweenness são mais prováveis por posicio- 
narem-se entre módulos, a remoção sucessi- 
va destes conectores pode eventualmente 
isolar estes mesmos módulos. Essa desor- 
dem na rede, conforme será visto adiante, é 
conhecida como perturbação de conector. 

6.5. Tipos de redes 

Rede Aleatório 

Os matemáticos Paul Erdõs e Alfrád 
Rényi iniciaram seus estudos sobre redes ale- 
atórias em 1960. Este modelo de rede tem 
impulsionado o interesse de diversos cientis- 
tas ao longo dos anos por ser um dos primei- 
ros modelos de rede descoberto. Porém, 
apesar de amplamente estudadas, redes ale- 
atórias não capturam a realidade de um sis- 
tema biológico (Figura 23-6). 

Essas redes consistem de N nós, com 
cada par de nós conectados (ou não) com 



Figura 23-6: Ilustração de uma rede aleatória 
consistindo em 109 proteínas. A rede 
apresenta P(k) 3,8. Observe que as conexões 
de cada nó são valores próximos a 4, o que 
está de acordo com k ~ <k>. 

probabilidade p, gerando uma rede de cone- 
xões aleatórias com aproximadamente pN . ( N 
- l) / 2. Dessa forma, o grau dos nós segue 
uma distribuição de Poisson com máxima em 
<k> e a maioria dos nós apresentando aproxi- 
madamente o mesmo número de conexões k 
~ <k>, com grau próximo ao da média da rede. 
Raramente surgem nós que apresentam mais 
ou menos conexões que <k>. Adicionalmente, 
redes aleatórias apresentam a propriedade 
“mundo pequeno” e distribuição de grau ex- 
ponencial, sendo estatisticamente homogê- 
neas. 

Rede de livre escala 

O modelo de rede de livre escala foi in- 
troduzido por Barabási e Albert em 1999 onde 
se observa que redes complexas, como as 
redes de citações de artigos científicos, redes 
metabólicas, redes socais e a World Wide 
Web apresentam distribuição de grau que se- 
gue uma lei de potência P(k) ~kn, y >1. Essas 
redes são consideradas como livres de escala 
(Figura 24-6) pois a lei de potência não per- 
mite uma escala característica. 
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Figura 24-6: Ilustração de uma rede de livre 
escala consistindo de 109 proteínas, na qual o 
grau de distribuição segue uma lei de 
potência. Neste tipo de rede, as proteínas 
hubs (nós laranjas) tem papel essencial na 
manutenção da integridade da rede. 

Diferentemente da rede aleatória que 
apresenta um número fixo de N nós, as redes 
de livre escala apresentam uma ordem dinâ- 
mica de estruturação que permite o cresci- 
mento da rede pela adição de novos nós. 
Assim, a rede aleatória consiste de um siste- 
ma aberto que inicia com um pequeno grupo 
de nós e aumenta de tamanho exponencial- 
mente no tempo devido à inserção de novos 
nós. A probabilidade deste novo nó se conec- 
tar a nós com grande número de conexões é 
maior, sendo chamada de conexão preferen- 
cial. Por exemplo, imagine que você está bus- 
cando um artigo sobre determinado assunto 
na Internet. Certamente os artigos que você 
encontrará mais facilmente serão publicações 
com alto grau de conexão por serem mais 
conhecidos e bem citados quando compara- 
das a publicações pouco citadas e, conse- 
quentemente, menos conhecidas. 

Estes dois mecanismos, crescimento da rede e co- 
nexão preferencial originaram o algoritmo do modelo 
Barabási-Albert, que estabelece que o crescimento ini- 


cia-se como uma pequena rede, sendo que a cada ins- 
tante de tempo um novo nó com m conexões á adicio- 
nado, onde a probabilidade do novo nó se conectar ao 
nó i que está previamente presente depende de k i (grau 
de i): 

Esse crescimento gera uma rede de livre escala 
com expoente de grau y = 3. Após t instantes de tempo, 
temos uma rede com N =t + m 0 em t conectores. 

As características da rede de livre esca- 
la a tornam uma rede que apresenta um pe- 
queno número de nós altamente conectados 
(hubs), o que frequentemente determina suas 
propriedades. Como já mencionado, falhas na 
rede (ou remoção de nós aleatórios) apre- 
sentam poucas consequências, enquanto que 
o ataque aos nós altamente conectados tor- 
nará a rede fragmentada. Em sistemas bioló- 
gicos, uma rede bioquímica apresenta alta 
resiliência contra mutações aleatórias, en- 
quanto que os hubs podem ser usados como 
candidatos importantes para alvo de fárma- 
cos. Um exemplo disso seria a proteína EF-Tu. 
Esta proteína tem papel essencial durante a 
elongação da síntese proteica, sendo inibida 
pelo antibiótico quirromicina, que impede que 
o complexo EF-Tu-GDP seja liberado do ribos- 
somo. 

Rede Hierárquica 

Como já vimos anteriormente, uma rede 
pode ser avaliada pelo grau de agrupamento 
(clusterização) de seus nós. Na maioria das 
redes baseadas em um sistema real (chama- 
das de redes reais), como por exemplo, parte 
de uma via metabólica, o coeficiente de clus- 
terização é significativamente maior se com- 
parado a redes aleatórias. Da mesma forma, 
ocorre a coexistência da propriedade de livre 
escala e clusterização nas redes reais, como 
redes metabólicas e de interação proteica. 
Contudo, grande parte dos modelos propos- 
tos para representar estas redes não conse- 
gue descrever a livre escala e a clusterização 
simultaneamente. 

Adicionalmente, muitas redes reais 
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apresentam módulos, ou seja, a rede é com- 
posta de subredes funcionalmente separá- 
veis. Esses componentes separáveis 
apresentam densa conectividade entre os 
seus próprios nós, com conectividade mais 
dispersa em relação a componentes de ou- 
tros módulos. Isso ocorre porque cada mó- 
dulo apresenta a capacidade de executar uma 
tarefa identificável, diferente de outro módu- 
lo. Contudo, essa “separação” de tarefas não 
significa que um módulo é independente de 
outro, mas sim que tem funções distintas. 

Dessa forma, é necessário combinar a 
propriedade de livre escala, o alto grau de 
agrupamento e a modularidade de uma forma 
interativa, gerando a rede hierárquica. A es- 
trutura hierárquica é convencionalmente re- 
presentada por um dendrograma ou uma 
árvore e atua relacionando os nós mais próxi- 
mos na rede, conforme Figura 25-6. Essas 
redes podem ser formadas basicamente pela 
duplicação de clusters e repetidas indefinida- 
mente, integrando uma topologia livre de es- 
cala com alta modularidade, resultando em 
um coeficiente de clusterização independen- 
tes do tamanho do sistema. Muitas vezes, em 
redes reais, a modularidade não apresenta 
um limite claro, sendo reconhecida principal- 
mente por nós altamente conectados entre si 
e conectados a outros módulos. 



Figura 25-6: Ilustração de uma rede 

hierárquica consistindo de 55 proteínas em 
modelo de dendrograma onde é possível 
observar sua modularidade intrínseca. 

A principal característica dessas redes 
que não é compartilhada por redes aleatórias 
ou de livre escala é a hierarquia intrínseca, 
sendo representada também na sua arquite- 
tura. Essa característica hierárquica pode ser, 
ainda, analisada quantitativamente, como ob- 
servado por Dorogovtsev e colaboradores em 


2002, que construíram um gráfico de livre 
escala determinístico, na qual o coeficiente de 
clusterização de um nó que possui k conexões 
segue a lei de escala C{k) ~fc 1 . Portanto, o 
modelo de rede hierárquico integra uma to- 
pologia livre de escala com alta modularida- 
de, resultando em um coeficiente de 
clusterização independente do tamanho do 
sistema. 

6.6. Perturbação e conectores 

Como visto anteriormente, um grafo 
consiste de um conjunto de nós e um conjunto 
de conectores que conectam esses nós. Por- 
tanto, os nós são as entidades de interesse e 
os conectores representam as relações entre 
as entidades. 

Quando tratamos de sistemas biológi- 
cos, podemos levar em consideração diferen- 
tes entidades como, por exemplo, DNA, RNA, 
metabólitos, pequenas moléculas e/ou prote- 
ínas. Estes componentes biológicos não atu- 
am isoladamente, mas sim dependem da 
interação com outros componentes. Para que 
ocorra essa interação (comunicação) é ne- 
cessária a presença de conectores. 

Conectores podem ser interações físi- 
cas, bioquímicas ou funcionais. Por exemplo, 
em redes metabólicas, conectores podem ser 
reações que convertem um metabólito em 
outro ou enzimas que catalisam essas rea- 
ções: em redes de regulação gênica, conecto- 
res podem representar a ligação física de um 
fator de transcrição nos elementos regulató- 
rios; em redes de doenças, conectores podem 
representar as mutações genéticas associa- 
das à doença: e em redes proteicas, os co- 
nectores podem ser ligações físicas entre as 
proteínas. 

Como apresentado anteriormente, as 
redes podem ser direcionadas e não direcio- 
nadas. Esse comportamento da rede depende 
da natureza da interação e, obviamente, da 
direcionalidade dos conectores (Figura 26-6). 
Em redes direcionadas, a interação entre dois 
nós tem uma direção bem definida que repre- 
senta, por exemplo, a direção do fluxo do 
substrato ao produto em uma rede metabóli- 
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ca. Em redes não direcionadas, a Ligação não 
tem uma direção definida, tal como a intera- 
ção física entre proteínas. 



Figura 26-6: Representação de um conector 
não direcionado e um direcionado. 

Na abordagem da biologia de sistemas 
tão importante quanto conhecer os nós que 
interagem entre si em uma rede é compreen- 
der, por exemplo, que tipo de interação pode 
ocorrer na rede em questão, quais conectores 
são mais relevantes à rede e qual o impacto 
da perturbação de um conector. Nesta seção 
iremos discutir os tipos de conectores entre 
diferentes componentes de uma rede envol- 
vendo proteínas e as consequências da ruptu- 
ra nestas conexões. 

Interação proteína-proteína 

A interação proteína-proteína é comum 
e crucial a vários processos celulares, tais 
como na ligação enzima-inibidor e na intera- 
ção antígeno-anticorpo. Os diferentes tipos de 
complexos proteicos têm sido definidos na li- 
teratura como obrigatórios e não obrigatóri- 
os. No complexo obrigatório, as proteínas não 
podem funcionar separadamente, diferindo do 
complexo não obrigatório onde as proteínas 
associam-se e dissociam-se dependendo de 
fatores externos, podendo também exercer 
funções fora do complexo. 

De acordo com a estabilidade e o meca- 


nismo de formação do complexo, incluindo o 
tipo de conexão entre as proteínas, as intera- 
ções podem ser conceitualmente separadas 
em dois grupos: aquelas que são permanen- 
tes e aquelas que são temporárias. E, embora 
não exista um limite bem definido para essa 
separação, tendências têm sido observadas 
em relação a suas propriedades biológicas 
(Figura 27-6). 

Em relação à estrutura, por exemplo, 
interações temporárias são caracterizadas 
por interfaces proteicas pequenas, enquanto 
que as interfaces de proteínas interagindo 
permanentemente são maiores. Consequen- 
temente, complexos proteicos com interfaces 
maiores tendem a apresentar um maior grau 
de mudança conformacional após a ligação. 
Além disso, componentes de complexos per- 
manentes tendem a ser co-expressos e mais 
estáveis. Esta estabilidade gera uma pressão 
seletiva maior e em função disso, uma taxa 
evolutiva mais lenta. 

Como será discutido adiante, interação 
transitória tende a ser date, isto é, as proteí- 
nas podem se conectar em diferentes tempos 
e a interação permanente tende a ser party, 
isto é, conexão proteica forte e constante. 

As proteínas com conectores perma- 
nentes existem somente em sua forma com- 
plexada e são muito estáveis, enquanto 
aquelas com conectores transitórios possu- 
em a capacidade de associação e dissociação 
in vivo. Dentre as proteínas com conectores 
transitórios, há aquelas em que a associa- 
ção/dissociação é resultante de uma conexão 
com baixa afinidade, porém constante (inte- 
rações temporárias fracas) e aquelas em que 
a associação/dissociação é desencadeada por 
um processo ativo (interações temporárias 
fortes) como, por exemplo, uma mudança 
conformacional ocorrida em consequência de 
um fator ligante. 

A diferença entre as interações acima 
citadas é distinguida puramente pelas propri- 
edades da estrutura da interface proteica, isto 
é, da superfície de contato das proteínas. Es- 
sas propriedades conferem afinidade e espe- 
cificidade, e são determinadas principalmente 
por forças intermoleculares como comple- 
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Figura 27-6: Modelo esquemático representando os diferentes tipos de interações proteína- 
proteína e as propriedades biológicas relacionadas. Quanto maior o tamanho da base e a 
intensidade da cor do triângulo, maior é a relação entre o modo de interação proteica e a 
propriedade biológica. 


mentaridade estérica, força eletrostática, in- 
teração hidrofóbica e ligações de hidrogênio. 

A complementaridade estérica otimiza 
as interações de van der Waals entre o com- 
plexo. Normalmente, estas interações de fra- 
ca energia ocorrem em função da polarização 
transiente de ligações carbono-hidrogênio ou 
carbono-carbono e, apesar de fracas, são ex- 
tremamente importantes para o processo de 
reconhecimento intermolecular pois crescem 
em intensidade com a área de interação. 
Complexos com conexões permanentes exi- 
bem alta complementaridade estárica nas 
proteínas em contato, enquanto complexos 
com conexões temporárias demonstram bai- 
xa complementaridade. 

Como as interações de van der Waals, 
as interações hidrofóbicas são pontualmente 


fracas e ocorrem em função da interação en- 
tre cadeias ou subunidades apoiares. Os 
complexos com conexões permanentes nor- 
malmente persistem no estado ligado, sendo 
a força hidrofóbica mais significativa. Já em 
conectores transitórios, a alta hidrofobicidade 
se torna desfavorável, pois esses complexos 
permanecem ligados por menos tempo. 

As forças de atração eletrostáticas são 
aquelas resultantes da interação entre dipo- 
los e/ou íons de cargas opostas e represen- 
tam força significativa na interação 
proteína-proteína, podendo definir o tempo de 
vida do complexo. 

Dentre as forças intermoleculares dis- 
cutidas acima, o fator dominante da interação 
permanente entre proteínas consiste nas in- 
terações hidrofóbicas, enquanto várias forças 
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participam de interações temporárias entre 
proteínas. Além disso, proteínas interagindo 
de forma temporária possuem interfaces que 
são menores em tamanho do que as interfa- 
ces de proteínas permanentes, os aminoáci- 
dos que compõem a interface e a proporção 
de resíduos hidrofóbicos não diferem drasti- 
camente do resto da superfície proteica e as 
interfaces são Levemente ricas em grupos 
polares neutros e em água. 

0 tipo de interação também confere 
graus diferentes de restrição (pressão seleti- 
va) na evolução da proteína. Proteínas com 
interação permanente tendem a evoluir em 
uma velocidade menor comparada a proteí- 
nas que formam complexos temporários, 
bem como possuir pressão seletiva maior e 
menor plasticidade em sua sequência. 

Evidências sugerem que o modelo duplica- 
ção-divergência aplica-se à evolução das re- 
des proteicas. Uma das predições é que na 
duplicação das proteínas algumas ou todas as 
conexões podem ser herdadas da proteína 
ancestral. Consistente com esta hipótese, 
proteínas parálogas tendem a compartilhar 
padrões de interação em uma frequência 
maior do que a esperada ao acaso. No entan- 
to, tem sido proposto que depois que a dupli- 
cação gênica ocorre, as interações entre as 
proteínas são rapidamente perdidas. Portan- 
to, duplicações recentes são mais prováveis 
de compartilhar interações, comparadas a 
duplicações mais ancestrais. 

Outra distinção acerca da interação 
proteica refere-se à interação funcional e in- 
teração física. A interação funcional pode ou 
não corresponder a uma interação física dire- 
ta em algum processo biológico. Assim, na 
interação física, a proteína A conecta-se a 
proteína B e, na interação funcional, a proteína 
A atua com a proteína B. Como exemplo de 
interação funcional podemos imaginar dois 
produtos gênicos que interagem em uma 
mesma via em um processo biológico, mas 
não se conectam fisicamente. 

0 tipo de interação tem um papel im- 
portante na determinação do comportamento 
das proteínas. Como já vimos, hubs são pro- 
teínas envolvidas em um grande número de 


interações (altamente conectadas) dentro de 
uma rede proteica. Algumas proteínas hub 
são altamente co-expressas com outras pro- 
teínas do módulo, o que implica na existência 
de complexos estáveis (permanentes). Outras 
proteínas possuem expressão independente, 
sugerindo a ligação com proteínas em dife- 
rentes tempos, de modo transitório. Esses 
hubs são classificados como party e dote 
hubs, respectivamente. 

Na construção de redes proteicas, a di- 
ferenciação entre complexos permanentes e 
transitórios tem importantes implicações. Por 
exemplo, na prospecção de novos fármacos, a 
alteração do padrão de interação entre pro- 
teínas temporárias por modulação farmaco- 
lógica ocorre mais facilmente em 
comparação a proteínas que formam com- 
plexos permanentes. Portanto, uma rede de 
interação proteica não é um processo estáti- 
co, mas sim corresponde a um constante flu- 
xo de informações. Por conseguinte, na 
análise de dados de interação proteína-pro- 
teína a discriminação das características da 
interação e/ou o uso de centralidades de co- 
nectores é fundamental para obter modelos 
mais realísticos. 

Interação proteína-ácidos nucleicos 

Proteínas que se ligam a ácidos 
nucleicos têm um papel central em todos os 
processos regulatórios que controlam o fluxo 
de informação genética. Por exemplo, proteí- 
nas podem inibir, ativar e coordenar a trans- 
crição do DNA, auxiliar e manter o 
empacotamento e o rearranjo do DNA e o 
processamento do RNA, coordenar a replica- 
ção do DNA, promover a síntese de proteínas 
e sinalizar o reparo do DNA, entre outros. 

Esses possíveis papéis fisiológicos são 
determinados pela afinidade e especificidade 
da interação DNA-proteína, que é a habilidade 
da proteína em distinguir seu sítio de ligação 
do restante do DNA. Estas propriedades de- 
pendem de interações precisas entre a se- 
quência de aminoácidos da proteína e os 
nucleotídeos do sítio específico de ligação do 
DNA. 
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As proteínas que se Ligam a ácidos 
nucleicos podem ser, de forma simplificada 
separadas em três grupos de acordo com a 
função: 

i) enzimas, onde a principal função da 
proteína é modificar a organização do 
ácido nucleico, como no caso das endo- 
nucleases, glicosiltransferases, glicosi- 
lases, helicases, ligases, metil- 
transferases, nucleases, polimerases, 
recombinases, topoisomerases, trans- 
locases e transposases, entre outras; 

ii) fatores de transcrição, onde a princi- 
pal função da proteína é regular a 
transcrição e a expressão gênica como 
por exemplo, TFIIA, TFIIB, TFB, entre 
outros; 

Ui) proteínas estruturais que ligam-se 
ao DNA, que têm como principal função 
suportar a estrutura e a flexibilidade do 
DNA ou agregar outras proteínas, por 
exemplo, proteínas centroméricas, pro- 
teínas envolvidas no empacotamento e 
na manutenção/proteção do DNA, pro- 
teínas de reparo, proteína envolvidas na 
replicação e proteínas teloméricas, en- 
tre outras. 

A interação proteína-proteína também é 
necessária para uma eficiente interação entre 
proteínas e ácidos nucleicos. A interação pro- 
teína-proteína com o DNA pode ocorrer de 
três modos de acordo com a direção e o eixo 
da dupla hélice do DNA (Figura 28-6): 


í) a direção da interação entre as proteí- 
nas e o eixo da dupla hélice é perpendi- 
cular; 

ii) a direção da interação da proteína é 
paralela ao eixo da dupla hélice; 

Ui) ambos os modos de interação são 
observados ao mesmo tempo. 

Assim como na formação de complexos 
proteicos, discutido anteriormente, a forma- 
ção de complexos DNA-proteína ou RNA-pro- 
teína também envolve forças 
intermoleculares, tais como van der Walls, 
força eletrostática, interação hidrofóbica e li- 
gações de hidrogênio. 

A região da proteína que reconhece a 
sequência do ácido nucleico é denominada 
motivo. Os motivos hélice-volta-hélice, dedo 
de zinco e zíper de leucina são os mais co- 
muns encontrados nas proteínas que intera- 
gem com ácidos nucleicos. 

0 motivo hélice-volta-hélice é um dos elementos 
normalmente encontrados nos fatores de transcrição 
e nas enzimas de procariotos e eucariotos, sendo for- 
mado por duas hélices a conectadas por uma volta. 0 
motivo liga-se a cavidade maior do DNA e, em muitos 
complexos, o contato direto é feito entre a cadeia de 
aminoácido e a sequência de bases do ácido nucleico. 

Já o motivo dedo de zinco é encontrado principal- 
mente em fatores de transcrição de eucariotos. Um 
dedo de zinco é composto por duas folhas p antipara- 
lelas e uma hélice a, sendo o íon zinco fundamental pa- 
ra garantir a estabilidade deste tipo de domínio. 
Subunidades proteicas contêm múltiplos dedos de zin- 





A) 


B) 


C) 


Figura 28-6: Modos de interação proteína-proteína com a dupla hélice do DNA. A) perpendicular; 
B) paralela e C) ambas as direções são observadas. 
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co que se enrolam no DNA formando uma espiral, in- 
serindo a hélice a na cavidade maior do DNA. 

Fatores de transcrição de eucariotos e procariotos 
também podem conter o motivo zíper de leucina, en- 
contrado em proteínas regulatórias. Esse motivo é 
formado por duas hélices a paralelas, unidas por resí- 
duos de leucina. 

A estrutura do zíper de leucina pode ser dividida em 
duas partes: a região de dimerização e a região de liga- 
ção ao DNA. A dimerização é mediada pela formação 
de uma estrutura enrolada na região carboxi-terminal 
de cada hélice com sete resíduos de leucina. A região 
que se liga ao DNA, também conhecida como região 
básica, é encontrada na região amino-terminal da héli- 
ce que se projeta na cavidade maior do DNA. Embora 
motivos de diferentes famílias de DNA sejam similares 
estruturalmente, pouca homologia é observada fora do 
motivo. Há baixa identidade entre motivos de diferentes 
famílias de proteínas e esta variação permite, portanto, 
o reconhecimento de diferentes conjuntos de sequên- 
cias de DNA. Além disso, a posição do domínio dentro 
da cavidade maior do DNA também varia, refletindo a 
necessidade funcional e estrutural de cada proteína. 

A afinidade e a especificidade na ligação 
de proteínas ao DNA não podem ser endere- 
çados somente a alguns resíduos de aminoá- 
cidos, mas o envolvimento de toda a proteína 
deve ser considerado. Por exemplo, a maioria 
das proteínas que se ligam ao DNA possuem 
domínios desordenados que contribuem para 
o reconhecimento do DNA em vários níveis. 

Proteínas com domínios desordenados são proteí- 
nas que não apresentam estrutura 2 ária e 3 aria sob con- 
dições fisiológicas e na ausência de ligantes naturais. 
Essas proteínas possuem alta especificidade e baixa 
afinidade na interação, são capazes de interagir com 
mais de uma proteína e alvos de modificações pós-tra- 
ducionais, possuindo a capacidade de manter sua fun- 
ção mesmo em ambientes extremos. Na interação com 
o DNA, o domínio desordenado da proteína não é cruci- 
al à formação do complexo, mas pode influenciar o re- 
conhecimento da sequência do DNA, conferindo 
seletividade e afinidade de ligação. 

Além da característica das cavidades na 
molécula de DNA, da presença de motivos 
específicos nas proteínas ou ainda da ocor- 
rência de domínios desordenados, outros fa- 
tores podem influenciar a interação do 
DNA-proteína, tais como a flexibilidade e a 


afinidade da proteína pelo DNA e presença de 
água no meio. 

Muitas proteínas são flexíveis ao ponto 
de alterar sua conformação quando se ligam 
ao DNA, enquanto outras são conhecidas por 
alterar a conformação do DNA após a ligação. 
A afinidade da interação entre o DNA e uma 
proteína tende a estar relacionada à relevân- 
cia funcional da proteína. Por exemplo, a afi- 
nidade de um fator de transcrição por seu 
sítio de ligação é proporcional à ativação que 
ele exerce. Ainda, alguns contatos mediados 
por água foram observados entre proteínas e 
o DNA, participando de redes de ligações de 
hidrogênio que conferem estabilidade ao 
complexo. 

Interação entre proteínas e peque- 
nos compostos 

Considerando-se que a interação proteí- 
na-proteína normalmente envolve superfícies 
relativamente grandes, pode-se imaginar que 
moléculas menores não seriam efetivas na 
modulação da ligação dos complexos por 
apresentarem áreas menores e, por conse- 
guinte, interações menos intensas. Contudo, 
ao empregarmos estruturas químicas dife- 
rentes de aminoácidos, podemos não só 
compensar esta redução na área de contato 
mas produzir moléculas com afinidade maior 
do que os próprios ligantes fisiológicos en- 
volvidos do processo de interesse. 

Adicionalmente, estas moléculas de 
baixa massa molecular tendem a apresentar 
muitas vantagens terapêuticas em relação a 
proteínas, dentre as quais se destaca sua 
maior estabilidade metabólica e consequente 
maior biodisponibilidade. Podem atuar direta- 
mente - via inibição da interface proteína- 
proteína - ou indiretamente - via ligação a um 
sítio alostérico que induz uma mudança con- 
formacional do alvo da proteína ou da molé- 
cula associada. 

A busca de novos fármacos deve levar 
em conta o tipo de complexo proteico alvo. A 
formação de complexos permanentes pode 
ser considerada uma continuação do enove- 
lamento da proteína, sendo o dobramento fi- 
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nal das subunidades parte deste processo. 
Assim, esse tipo de complexo é menos pro- 
penso à modulação farmacológica, sendo 
mais interessante explorar o processo de do- 
bramento em si como alvo de pequenos 
compostos. Já as interfaces das proteínas de 
complexos temporários são alvos efetivos ao 
planejamento de novos moduladores tera- 
pêuticos. 

Para que pequenas moléculas modulem 
a interação proteica, estratégias têm sido es- 
tabelecidas e dois principais mecanismos do 
controle regulatório têm sido utilizados: a ini- 
bição e a estabilização (Figura 29-6). Das es- 
tratégias mais exploradas, destaca-se a 
inibição da interação proteína-proteína. 



Figura 29-6: Dois principais mecanismos de 
modulação da interação proteína-proteína 
utilizando pequenos compostos. Diferentes 
proteínas são apresentadas em preto e 
amarelo. Pequenos compostos são 
apresentados em vermelho. 

0 modo de ação da maioria dos inibido- 
res de interação proteica é baseado na ligação 
direta de uma pequena molécula à superfície 
de interação da proteína ligante, interferindo 
diretamente nos hot spots críticos da interfa- 
ce e competindo com a proteína original. Esse 
tipo de inibição é conhecido como ortostérica. 
Na inibição alostérica, pequenos compostos 
ligam-se a sítios diferentes, causando mu- 
dança conformacional suficiente para interfe- 
rir na ligação da proteína ligante (Figura 
29-6). 

Pequenas moléculas estabilizadoras da 
interação proteína-proteína também de- 
monstram dois modos gerais de ação. Pri- 


meiro, um estabilizador pode ligar-se a uma 
única proteína, na qual aumenta a afinidade de 
ligação mútua das proteínas do complexo de 
um modo alostérico. Segundo, a molécula es- 
tabilizadora liga-se à superfície do complexo 
proteico, fazendo contato com ambas as pro- 
teínas ligantes e aumentando a afinidade de 
ligação mútua entre elas. Assim, a inibição 
estabilizadora pode ser denominada alostéri- 
ca (ligada a uma proteína) ou direta (ligada ao 
menos a duas proteínas). 

A ativação por pequenos compostos á, normal- 
mente, um processo mais intrincado pois, além da liga- 
ção, é necessário o correto desencadeamento da 
cascata de ativação. Compostos que induzem a intera- 
ção proteica são chamados de dimerizadores. Inúme- 
ras vias de sinalização celular iniciam a partir da 
dimerização proteína-proteína. A principal ideia do uso 
de dimerizadores é a indução de interação entre duas 
proteínas por pequenas moléculas que levam à ativa- 
ção da via de sinalização celular. Na literatura científica 
foi observado que dimerizadores podem induzir proli- 
feração celular, transcrição e apoptose. 

Perturbação dos conectores 

Perturbações podem ocorrer em todos 
os sistemas, e em sistemas biológicos não é 
diferente. Nos interatomas, essas perturba- 
ções podem variar desde a remoção de um ou 
mais nós até a remoção de conectores. Desta 
forma, as consequências na estrutura e na 
função do sistema irão diferir drasticamente 
dependendo do tipo de perturbação ao qual a 
rede foi exposta. Como exemplo, podemos 
imaginar uma rede de proteínas que confere 
um fenótipo específico (Figura 30-6). 

A remoção do nó não somente incapa- 
cita a função deste, mas também a de outros 
nós, causando a ruptura nas vias de todos os 
nós vizinhos. Uma perturbação no conector, 
que remove uma ou poucas interações mas 
deixa o restante da rede intacta e funcionan- 
do, pode ter efeitos mais sutis no sistema, 
não necessariamente alterando o fenótipo. 
Contudo, a consequência do desarranjo da re- 
de após a remoção de nós ou de conectores 
depende da importância do nó e do conector à 
rede. Essas informações de conectores e nós 


142 



6. Biologia de Sistemas 


Sem perturbação 


Perturbação no nó 6 


Perturbação no conector X Perturbação no conector Y 



Figura 30-6: Rede hipotética de proteínas relacionada a um fenótipo específico representando 
diferentes tipos de perturbação e suas consequências. Neste exemplo o nó 5 e o conector entre 
os nós 5 e 1 são essenciais à manutenção do fenótipo selvagem. 


mais informativos de uma rede podem ser 
obtidas, por exemplo, pela análise da residên- 
cia e percolação da rede, vista anteriormente. 

A distinção entre modelos de remoção 
de nó e perturbação de conectores - altera- 
ção interação-específica e conector-específica 
( edge-specific ou "edgetic"), respectivamente 
- pode providenciar novas pistas nos meca- 
nismos básicos de doenças humanas, tais co- 
mo diferentes classes de mutações que 
levariam a modos dominantes ou recessivos 
de herança genética. 

Em uma rede proteica, a remoção de 
um nó pode representar a remoção de uma 
proteína, causado por uma mutação crítica no 
gene que desestabiliza a estrutura da proteí- 
na. Já a remoção de um conector pode repre- 
sentar uma mudança específica em distintas 
interações bioquímicas e biofísicas, preser- 
vando certos domínios da proteína. 

Em relação a genes envolvidos em múl- 
tiplas doenças, foi demonstrado que alelos 
edgetic responsáveis por diferentes doenças 
consistem em distintas perturbações edgetic 
que, por sua vez, tendem a estar localizados 
em diferentes domínios de interação proteica, 
conferindo fenótipos diferenciados. 

Pesquisadores analisaram cerca de 50.000 alelos 
mendelianos associados a doenças genéticas hereditá- 
rias e observaram que aproximadamente a metade foi 
potencialmente edgetic. Nesta análise foram conside- 
radas deleções e mutações truncadas dentro dos do- 


mínios da proteína que grosseiramente desestabiliza- 
ram a estrutura da proteína, como remoção de nó, 
mutações com alteração em quadro de leitura que 
afetaram sítios de ligação específicos e mutações 
truncadas que preservaram certos domínios da proteí- 
na como perturbação edgetic. Alelos truncados foram 
menos propensos a expressar proteínas estáveis em 
comparação a alelos que alteraram o quadro de leitura, 
podendo diferir doenças hereditárias mendelianas en- 
volvendo remoção de nó versus perturbação edgetic. 

Um alelo edgetic pode ser identificado pela falta de 
um subconjunto de interações, quando possuem defei- 
tos nas interações provavelmente devido a mudanças 
específicas dentro ou próximo a sítios de ligação da 
proteína ou quando fenótipos in vivo diferem daqueles 
causados por perturbações nulas (genótipos nulos). 

Dependendo da rede, o fenômeno de 
perturbação de um único conector pode ser 
mais provável do que da remoção de um nó. 
Dependendo do conector rompido, o impacto 
à rede pode ser maior, pois diferentes conec- 
tores (interações) têm diferentes níveis de 
importância (vulnerabilidade). Conectores 
com alto valor de edgebetweenne ss podem 
causar fragmentação da rede em componen- 
tes desconectados, caso sejam rompidos, co- 
mo por exemplo no caso de conectores entre 
dusters. Esse tipo de conector é assim cha- 
mado de cut-edge. Já conectores com baixo 
valor de edgebetweenne ss, quando elimina- 
dos da rede, podem ser substituídos por vias 
alternativas, como por exemplo no caso de 
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conectores dentro de dusters. Assim, conec- 
tores interdusters tendem a ser mais vulne- 
ráveis quando comparados aos conectores 
intradusters em uma determinada rede. 

6.7. Conceitos-chave 

Assortatividade: tendência de nós interagirem 
com nós similares a eles mesmos. 

Betweenness : parâmetro que estima a relação 
entre dois nós, ou seja, leva em conside- 
ração a quantidade de caminhos mais 
curtos que passam entre eles. 

Biologia de sistemas: área da bioinformática que 
estuda sistemas moleculares complexos e 
como as moléculas interagem entre si. 

Caminho: sequência consecutiva de nós em um 
grafo sem repetições, estando cada nó 
adjacente interligado por um conector. 

Caminho geodésico: definido pela via mais curta 
dentro de uma rede entre dois nós quais- 
quer. 

Circuito: sequência de nós sem repetição com 
um conector entre cada par de nós adja- 
centes na sequência, onde o nó inicial co- 
incide com o nó final. 

Clique: é definido como um grafo com alta co- 
nectividade entre seus elementos inte- 
grantes. Sendo assim, clique também é 
considerado um sinônimo de cluster. 

Closeness : valor que indica os caminhos mais 
curtos entre um nó n e todos os outros nós 
da rede, uma tendência de aproximação 
ou isolamento de um nó. 

Complexo proteico: grupo de proteínas formado 
pela associação de duas ou mais cadeias 
polipeptídicas. 

Comprimento do caminho: definido pelo número 
de conectores que definem o caminho, ou 
então, pelo número de nós da sequência 


menos um. 

Conector Cut-edge\ conector que quando rom- 
pido causa fragmentação da rede. 

Date hubs: são hubs que se ligam a diferentes 
proteínas em diferentes módulos (inter- 
módulo), ou seja, diferente tempo e/ou 
espaço, consequentemente, apresentado 
um papel global na rede. 

Desassortatividade: tendência de nós interagi- 
rem com nós diferentes deles mesmos. 

Diâmetro: indica a distância entre os dois nós 
mais afastados entre si de uma rede. 
Sendo assim, definimos que uma rede 
possui um alto diâmetro quando a distân- 
cia geral entre os nós é muito ampla. 
Quando a distância entre os nós é peque- 
na, então o diâmetro é baixo. 

Dimerização: corresponde à união de dois mo- 
nômeros, formando um dímero. Ou seja, é 
a formação de uma molécula a partir de 
duas moléculas menores. 

Dimerizadores: compostos que induzem a di- 
merização, neste caso a interação protei- 
ca. 

Distribuição de Poisson: distribuição aplicada a 
probabilidade de ocorrência de um evento 
em determinado intervalo de tempo. 

Edgebetweenness: parâmetro que indica o nú- 
mero de caminhos mais curtos entre pares 
de nós que percorrem um determinado 
conector. 

Edgetic : perturbação causada em um conector 
específico, portanto em uma interação es- 
pecífica na rede. 

Forças intermoleculares: forças que mantêm as 
moléculas unidas durante a interação. 

Gargalo ( bottleneck ): proteína que apresenta 
alto grau de betweenness. 
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Grau de nó ( node degree ): parâmetro referente 
à quantidade de nós adjacentes (direta- 
mente conectados) a outro determinado 
nó. 

Hipergrafo: rede caracterizada pela presença de 
hipervértices. 

Hipervértices: Conectores que interligam nós 
que apresentam propriedades distintas 
nos hipergrafos. 

Hot spot proteico: locais essenciais da interface 
com alta afinidade de ligação. 

Inibição alostérica de uma proteína: na inibição 
alostérica, pequenos compostos ligam-se 
a sítios diferentes, causando mudança 
conformacional suficiente para interferir na 
ligação da proteína ligante. 

Inibição ortostérica de uma proteína: inibição 
causada pela ligação direta de uma pe- 
quena molécula à superfície de interação 
da proteína ligante, interferindo direta- 
mente nos hot spots críticos da interface e 
competindo com a proteína original. 

Interface proteica: área através da qual as ma- 
cromoléculas se comunicam e exercem 
sua funcionalidade. 

Modularidade (clusterização): padrões de co- 
nectividade, onde seus elementos consti- 
tuintes estão agrupados em subconjuntos 
altamente conectados. 

Multiconector, interações: quando há dois ou 
mais conectores ligando os mesmos nós 
na rede em redes direcionadas. 

Multidígrafo: rede direcionada com a presença 
de multiconectores. 

"Mundo pequeno", efeito: define que existe um 
caminho mínimo entre um nó de origem e 
um nó de destino. 

Ontologia gênica: tipo de análise que tem como 


função, em uma rede de interação proteí- 
na-proteína, agrupar proteínas que façam 
parte de um mesmo processo biológico. 

Party hubs : proteínas altamente ligadas dentro 
do seu próprio módulo (intra-módulo), ou 
seja, ligação no mesmo tempo e/ou espa- 
ço. 

Pleiotrópico, efeito: proteínas pleiotrópicas são 
aquelas que apresentam múltiplos efeitos 
em um sistemas biológico. 

Rede: representação gráfica da interação entre 
nós por meio de vértices. 

Rede bipartida: existe uma partição da rede, por 
exemplo, partição A e partição B, sendo os 
nós presentes na partição A adjacentes 
apenas a nós da partição B, e vice-versa. 

Rede direcionada: apresentam conectores que 
orientam o fluxo da informação em uma 
direção. 

Rede não direcionada: os conectores desta rede 
não apresentam uma direção orientada. 

Rede ponderada: são redes que se caracterizam 
pela presença de atributos associados a 
conectores e nós. 

Resiliência: capacidade de uma rede a tolerar a 
deleção de seus nós por falha ou ataque. 

Taxa evolutiva: medida das mudanças ocorridas 
numa entidade (gene, proteína, organis- 
mo, população) evolutiva ao longo do 
tempo. 

Teoria da Percolação: tem por objetivo investigar 
o comportamento das propriedades de 
conectividade de uma rede. 

Topologia de redes: estrutura e disposição de 
conexões entre os nós. 

Vulnerabilidade do conector: grau de importân- 
cia do conector. 
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7. Modelos Tridimensionais 




Geração de múltiplos modelos para a estrutura de 
uma determinada sequência de aminoácidos. 

7.1. Introdução 

7.2. Estrutura 3D de proteínas 

7.3. Enovelamento de proteínas 

7.4. Predição da estrutura 

7.5. Modelagem comparativa 

7.6. Predição de enovelamento 

7.7. Métodos de novo 

7.8. Primeiros princípios 

7.9. Escolhendo o modelo 

7.10. Análise da qualidade 

7.11. Refinamento do modelo 

7.12. Aplicações de modelos 

7.13. Conceitos-chave 


7.1. Introdução 

O rápido avanço na computação científi- 
ca verificado na última década, principalmen- 
te quanto ao aumento da capacidade de 
processamento dos computadores a custos 
relativamente baixos, tem permitido que clas- 
ses importantes de problemas científicos na 
área da bioinformática, no estudo de biomolé- 
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cuias e sistemas biológicos, possam ser 
abordadas com cada vez mais sucesso. Den- 
tre estas áreas, a predição de estruturas tri- 
dimensionais de proteínas destaca-se pela 
sua importância, o que tem atraído um gran- 
de número de pesquisadores ao redor do 
mundo. Um exemplo deste interesse está na 
criação de um encontro bianual de caráter 
mundial, intitulado CASP - Criticai 

Assessment of Protein Structure Prediction, 
com o objetivo de avaliar o estado da arte da 
capacidade de predição de diferentes meto- 
dologias desenvolvidas. 

A predição de estruturas tridimensionais 
de proteínas se caracteriza por possuir apli- 
cações práticas de grande impacto terapêuti- 
co e biotecnológico. Está diretamente 

relacionada a múltiplas áreas da bioinformá- 
tica e modelagem molecular, tais como o 
atracamento proteína-ligante (ver capítulo 9), 
aplicado ao desenho racional de fármacos 
baseado em estruturas, o desenho de novas 
proteínas com funções específicas (nanotec- 
nologia e engenharia de proteínas) e a própria 
elucidação de estruturas a partir de dados 
experimentais, por exemplo, de ressonância 
magnética nuclear (RMN). Avanços teóricos e 
metodológicos implicariam em impactos di- 
retos na saúde e no bem estar da sociedade. 
No entanto, apesar dos avanços realizados 
nos últimos anos, o desenvolvimento de me- 
todologias capazes de alcançar um elevado 
grau de previsibilidade e acurácia continua 
sendo um importante desafio. 

7.2. Estrutura 3D de proteínas 

Proteínas 

A função de uma proteína está intima- 
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mente associada à sua estrutura tridimensio- 
nal. Essa é a afirmativa fundamental que ins- 
pira todas as buscas por um método que seja 
capaz de prever a estrutura nativa de uma 
proteína a partir da sua sequência de aminoá- 
cidos. Tal método poderia ajudar na compre- 
ensão e no melhor aproveitamento do 
potencial contido na grande quantidade de in- 
formação biológica, na forma de sequências, 
que vem sendo gerada graças ao sucesso dos 
projetos genoma. 

“As informações sobre a estrutura de 
uma proteína estão armazenadas em uma se- 
quência codificada nos genes de um organis- 
mo”. Assim diz um dos principais paradigmas 
da biologia, postulado por Anfinsen em 1973. 
A sequência é traduzida através de um com- 
plexo aparato celular em uma estrutura tridi- 
mensional funcional. Entender todos os 
mecanismos e forças por traz desse proces- 
so seria um enorme avanço científico que in- 
fluenciaria praticamente todas as áreas das 
ciências da vida. Esse produto funcional da 
tradução, chamado de estrutura nativa, é 
uma macromolécula estável, em condições 
fisiológicas, formada por ligações peptídicas 
entre os aminoácidos. 

Apesar de estável, a estrutura nativa 
está longe de ser uma molécula estática. Tra- 
ta-se de uma estrutura flexível, com movi- 
mentos específicos, muitos dos quais são 
diretamente responsáveis pela função da pro- 
teína. Por esse motivo, consideramos o “esta- 
do nativo” de uma proteína não como uma 
estrutura estática, mas como um conjunto de 
conformações (também chamadas de confi- 
gurações) de baixa energia livre e biologica- 
mente relevantes que a cadeia assume 
regularmente no meio no qual exerce suas 
funções. 

Determinação experimental 

As principais técnicas para a determina- 
ção experimental da estrutura tridimensional 
de macromoléculas biológicas serão apre- 
sentadas nos capítulos 12 e 13. Brevemente, o 
processo para a obtenção da estrutura tridi- 
mensional de uma proteína via técnica de 


cristalografia por difração de raios-X é com- 
posto basicamente pela produção e purifica- 
ção da proteína alvo, cristalização, coleta e 
processamento dos dados, resolução da es- 
trutura (empregando informações sobre a 
sequência de aminoácidos e diferentes pro- 
gramas) e refinamento da estrutura. 

A técnica de RMN também requer o co- 
nhecimento da sequência de aminoácidos. 
Contudo, não é necessário que a proteína es- 
teja em um estado de cristal ordenado. A 
vantagem da RMN é que a estrutura a ser de- 
terminada pode estar em solução, apesar de 
requerer que a proteína solubilizada esteja em 
altas concentrações. Infelizmente, esta técni- 
ca ainda está limitada a proteínas de tama- 
nhos pequenos a médios, limitação não 
observada para a cristalografia. Mesmo as- 
sim, a RMN destaca-se ao revelar informa- 
ções sobre o comportamento dinâmico das 
estruturas, incluindo mudanças conformacio- 
nais e interações com outras moléculas. 

Na RMN, um forte campo magnético alinha os mo- 
mentos magnéticos dos núcleos atômicos de isótopos 
que possuem s p/n nuclear diferente de zero (tais como 
H 13 C, 15 N, 9 F e 31 P). Uma fonte de radiofrequência de 
energia variável é emitida, podendo ser absorvida pelos 
núcleos atômicos invertendo o alinhamento do s p/n 
nuclear em relação ao campo magnético externo apli- 
cado. Neste momento, parte da energia é absorvida e o 
espectro de absorção resultante fornece a informação 
sobre a identidade do núcleo e seu ambiente químico 
na vizinhança. Dados de sucessivos experimentos são 
coletados e um espectro de RMN é gerado contendo as 
informações sobre todos os deslocamentos químicos 
de todos os isótopos analisados na proteína. 

7.3. Enovelamento de proteínas 

0 enovelamento de proteínas é objeto 
de grande interesse de diversas áreas do co- 
nhecimento, como mencionado acima. Dada a 
presença marcante das proteínas em inúme- 
ros processos biológicos, é surpreendente 
que ainda hoje se saiba tão pouco de como o 
enovelamento ocorre, permitindo que as pro- 
teínas adotem sua estrutura nativa. Estudos 
sobre o enovelamento de proteínas tratam do 
processo pelo qual a cadeia peptídica sinteti- 
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zada adota a sua estrutura tridimensional na- 
tiva. Eles diferem dos estudos de predição de 
estrutura de proteínas (PSP - Protein 
Structure Prediction ) por estarem mais inte- 
ressados no "como" e não no produto final do 
processo de enovelamento. Mas é justamente 
este “como" que nos permite conhecer mais 
detalhes sobre o enovelamento e, a partir 
destas informações, desenvolver novos mé- 
todos de predição de estruturas. De fato, a 
maioria dos métodos de predição é inspirada 
em um ou mais aspectos das teorias de eno- 
velamento. 

0 postulado de Anfinsen e a hipó- 
tese termodinâmica 

0 trabalho laureado de Christian Anfin- 
sen sobre a enzima ribonuclease demonstrou 
a relação entre a sequência de aminoácidos 
de uma proteína e sua conformação. A ribo- 
nuclease é uma proteína constituída de 124 
aminoácidos cuja atividade catalítica é a cliva- 
gem de moléculas de RNA. Ela possui em sua 
estrutura nativa quatro pontes dissulfeto. 
Sendo estas ligações oriundas da oxidação de 
resíduos de cisteína espacialmente próximos, 
podem ser clivadas reversivelmente por um 
agente redutor. 

Anfinsen e seus colaboradores, usaram 
o reagente denominado p-mercaptoetanol 
(que forma dissulfetos mistos cistina-p-mer- 
captoetanol). Em grandes quantidades, este 
reagente provoca a redução completa de to- 
dos os resíduos de cisteína. Contudo, eles no- 
taram que a proteína não podia ser 
prontamente reduzida a menos que estivesse 
parcialmente desenovelada por agentes tais 
como ureia e cloridrato de guanidina. Embora 
o mecanismo não seja completamente com- 
preendido, esses agentes perturbam as inte- 
rações não covalentes que estabilizam a 
estrutura da proteína, provocando o seu de- 
senovelamento. 

Quando uma solução da proteína ribo- 
nuclease foi incubada com ureia a 8 M e p- 
mercaptoetanol, observou-se que ela perdia 
totalmente a sua atividade catalítica. Em ou- 
tras palavras, a ribonuclease era desnatura- 


da. Isso confirmou a observação de que para 
que uma proteína exerça a sua função, ela 
deve estar em sua conformação nativa. 

Anfinsen fez então a observação crítica 
de que a ribonuclease desnaturada, uma vez 
livre da ureia e do p-mercaptoetanol, por diá- 
lise, recuperava lentamente a atividade enzi- 
mática. Ele imediatamente percebeu o 
significado deste achado: os resíduos de cis- 
teína da cadeia eram oxidados pelo ar e a en- 
zima espontaneamente se enovelava para a 
forma cataliticamente ativa. As experiências 
de Anfinsen e seus colaboradores mostraram 
que a informação necessária para especificar 
a complexa estrutura tridimensional da ribo- 
nuclease estava contida em sua sequência de 
aminoácidos. Estudos posteriores estabele- 
ceram a generalidade desse importante prin- 
cípio da biologia molecular: a sequência é um 
importante determinante da conformação 
proteica. 

Em resumo, o postulado de Anfinsen, 
também conhecido como a hipótese termodi- 
nâmica, afirma que, pelo menos para peque- 
nas proteínas globulares, a estrutura nativa é 
determinada unicamente pela sequência de 
aminoácidos. Isso equivale a dizer que, nas 
condições do ambiente (isto é, temperatura, 
pressão e constituição do solvente) em que o 
enovelamento ocorre, a estrutura nativa pos- 
sui três propriedades: 

i) A estrutura deve ser única, isto é, 
uma dada sequência não deve possuir 
outras conformações com energia livre 
comparável com a do estado nativo; 

ii) A estrutura deve ser estável, isto é, 
pequenas mudanças no ambiente ao seu 
redor não devem causar mudanças no 
enovelamento. Isso leva à imagem de 
que, pelo menos perto do mínimo glo- 
bal, o enovelamento de proteínas segue 
um formato de funil, que implicaria na 
estabilidade do estado nativo; 

Ui) A estrutura deve ser cineticamente 
acessível, isto é, o processo pelo qual a 
forma nativa de uma dada proteína seja 
atingida deve ocorrer em um tempo 
compatível com fenômenos biológicos. 
Proteínas de um único domínio se eno- 
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velam em uma escala de tempo da or- 
dem de microssegundo até segundos. 
Para satisfazer esses critérios, durante 
o enovelamento, a estrutura não deve 
sofrer mudanças muito bruscas na sua 
conformação, isto é, movimentos que 
implicam em barreiras energéticas mui- 
to grandes. 

Sequências muito diferentes podem adotar estrutu- 
ras muito parecidas. Ainda, o enovelamento é frequen- 
temente influenciado ou mesmo totalmente 
dependente de modificações co- ou pós-traducionais, 
além do ambiente molecular de destino e da participa- 
ção de chaperonas. Ainda, observou-se que o enovela- 
mento de proteínas em células nem sempre termina 
na forma nativa, o que levou ao surgimento, durante a 
evolução, de mecanismos de controle de qualidade do 
enovelamento proteico. 

Origem da estabilidade estrutural 

Podemos dizer que as proteínas são es- 
tabilizadas pela combinação de interações 
não covalentes oriundas da interação entre 
diferentes regiões da cadeia. Nesse contexto, 
estabilidade se refere à tendência em manter 
uma conformação nativa. Uma cadeia poli- 
peptídica, em teoria, pode assumir um núme- 
ro muito grande de configurações e, por isso, 
o estado desenovelado (também chamado de 
desnaturado) é caracterizado por uma alta 
entropia conformacional. Essa entropia, jun- 
tamente com as interações (por ligações de 
hidrogênio) com o solvente, leva à estabiliza- 
ção do estado desenovelado. 

As interações que contribuem para neu- 
tralizar esses efeitos e estabilizar o estado 
nativo são, além das pontes dissulfeto, inte- 
rações como ligações de hidrogênio intramo- 
leculares e interações de van der Waals. Note 
que, para se quebrar uma ligação covalente, é 
necessário muito mais energia do que para se 
romper interações não covalentes (aproxima- 
damente 1ÜÜ vezes mais). E, embora mais 
fracas, essas interações são muito mais nu- 
merosas do que o principal tipo de ligação co- 
valente (pontes dissulfeto) que, em algumas 
proteínas, estabiliza a estrutura 3 ária . Assim, 


em geral, a conformação com o maior núme- 
ro dessas interações fracas é a configuração 
de menor energia livre. 

Por conseguinte, a estabilidade de uma 
proteína não é proveniente da simples soma 
das energias de suas interações não covalen- 
tes. Em solução, cada grupo formador de li- 
gações de hidrogênio na cadeia peptídica 
estava interagindo com moléculas de água 
antes da estrutura se enovelar. Então, para 
cada nova ligação de hidrogênio intramolecu- 
lar formada quando a estrutura se enovela, 
uma ligação equivalente com o solvente é 
desfeita. Na prática, um dos principais fatores 
que impulsionam o enovelamento de uma 
proteína é o chamado efeito hidrofóbico. Re- 
sumidamente, o efeito hidrofóbico pode ser 
entendido como a tendência de resíduos de 
aminoácidos hidrofóbicos se agruparem no 
interior da proteína (que se torna portanto 
apoiar) e dos resíduos hidrofílicos se exporem 
na superfície da mesma (que se torna por- 
tanto polar). 

Em soluções aquosas existe uma rede de ligações 
de hidrogênio entre as moléculas de água. Moléculas 
do soluto tendem a romper ou atrapalhar a formação 
dessa rede. Esse efeito é mais pronunciado ao redor de 
moléculas hidrofóbicas, onde é formada a camada de 
solvatação (região onde as moléculas de água estão 
altamente organizadas em um padrão ótimo de for- 
mação de ligações de hidrogênio). 0 aumento da orde- 
nação das moléculas de água na camada de 
solvatação, ao redor de solutos hidrofóbicos (não-po- 
lares) resulta em uma diminuição desfavorável da en- 
tropia do solvente. Quando moléculas (ou partes de 
moléculas) não polares são agrupadas, o tamanho da 
camada de solvatação é menor, uma vez que nem to- 
das estão expondo toda a sua superfície molecular ao 
solvente (menor superfície acessível ao solvente). 0 
resultado disso é um aumento favorável na entropia. 
Consequentemente, aminoácidos hidrofóbicos tendem 
a se agrupar no interior de uma proteína, mantendo-se 
afastados da água. 

A maior parte da variação da energia li- 
vre que ocorre quando as interações intra- 
moleculares são formadas é devido ao 
aumento da entropia na solução aquosa re- 
sultante da formação do núcleo hidrofóbico. 
Isso supera a grande perda em entropia con- 
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formacional decorrente do processo de eno- 
velamento da proteína em sua estrutura nati- 
va (Figura 1-7). 
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Figura 1-7: A energia livre do enovelamento é 
resultado de um balanço delicado de forças. 
As interações intramoleculares (AH) e a 
entropia do solvente (efeito hidrofóbico, TAS) 
são favoráveis ao enovelamento, enquanto a 
entropia conformacional (TAS) é 
desfavorável. 

7.4. Predição da estrutura 

A determinação experimental ainda é 
considerada o melhor processo para se obter 
a estrutura tridimensional de uma proteína. 
Entretanto estas técnicas, além de serem fi- 
nanceiramente custosas, podem levar anos e, 
em alguns casos, a estrutura final pode não 
chegar a ser obtida. Portanto, o desenvolvi- 
mento de métodos computacionais é tanto 
uma alternativa mais barata quanto, em al- 
guns casos, a única possibilidade de obtenção 
de modelos estruturais para algumas proteí- 
nas. 

A complexidade do estudo das confor- 
mações adotadas por uma proteína durante o 
seu enovelamento até a conformação nativa 
pode ser ilustrada no chamado de paradoxo 
de Levinthal. Esse paradoxo diz que o número 
de possíveis conformações para uma dada 
sequência de aminoácidos é astronômico exi- 
gindo, mesmo considerando os computado- 
res mais poderosos disponíveis, um tempo 
comparável à idade do universo para o cálcu- 
lo da energia de todas estas conformações. 


Entretanto, o tempo de enovelamento de 
uma proteína está na escala de microssegun- 
dos e, portanto, o processo de enovelamento 
não pode ocorrer através de uma busca alea- 
tória por todas as conformações possíveis. 
De fato, o que ocorre é a retenção de estru- 
turas que são energeticamente mais estáveis, 
isto é, a cadeia peptídica percorre um caminho 
de enovelamento. 

Percebe-se, através do paradoxo de 
Levinthal, porque determinar a estrutura 3D 
nativa a partir da sequência de aminoácidos 
permanece como um dos maiores problemas 
da ciência moderna, tratando-se de uma 
questão profundamente multidisciplinar e 
abrangendo diversas áreas da ciência como 
engenharias, biologia, física, química e com- 
putação científica. 

Os primeiros métodos desenvolvidos 
para a predição da estrutura de proteínas 
eram organizados segundo 3 grupos princi- 
pais: métodos de modelagem comparativa, de 
predição de enovelamento (ou threading) e 
predição por primeiros princípios (ou ob 
initió). Essas categorias diferem quanto ao 
uso das informações disponíveis nos bancos 
de dados de estruturas tridimensionais de 
proteínas resolvidas experimentalmente. A 
modelagem comparativa é a metodologia 
mais dependente dessas informações, sendo 
a ob initio totalmente independente (Figura 2- 
7). 
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Figura 2-7: Relação entre métodos de 

predição de estrutura tridimensional de 
proteínas e o uso de estruturas resolvidas 
experimentalmente. Cada técnica é aplicável 
a partir de um certo grau de similaridade, o 
qual é medido pela taxa de identidade entre 
os aminoácidos da sequência alvo e 
sequências de estruturas conhecidas (a 
serem usadas como moldes). 
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Com os recentes avanços na área, con- 
tudo, pode-se notar que a separação entre 
entes métodos é cada vez mais tênue. Além 
disso, uma rápida consulta aos últimos CASP 
mostra que muitos dos métodos podem ser 
incluídos em mais de uma categoria. Por 
exemplo, a separação entre predição do eno- 
velamento e modelagem comparativa é cada 
vez mais difícil, e o uso de algum tipo de in- 
formação estrutural/experimental é ampla- 
mente observado, mesmo em metodologias 
ditas de primeiros princípios. Assim, hoje se 
usa uma classificação mais ampla que é útil 
quando se deseja avaliar e comparar os mé- 
todos objetivamente: 

i) Métodos independentes de estruturas 
molde (também chamados de métodos 
tempiate free). Incluem a predição ah 
initio e a predição de novo ; 

ii) Métodos baseados em estruturas 
molde (também chamados de tempiate 
hased). Incluem threading e modelagem 
comparativa. 

Com esta nova classificação, os méto- 
dos ditos de novo são aqueles que utilizam al- 
gum tipo de informação estrutural, tais como 
fragmentos de proteínas, predição de estru- 
tura 2 ária e potenciais estatísticos, oriundas de 
proteínas não homólogas à sequência alvo. 

0 que vai ditar a escolha do método a 
ser aplicado é a presença ou não de estrutu- 
ras resolvidas experimentalmente, e deposi- 
tadas em bancos de estruturas como o PDB 
( Protein Doto Bank), que possam ser usadas 
como molde (ou tempiate) para a modelagem 
da sequência alvo. A escolha do método está 
intrinsecamente relacionada com a taxa de 
identidade obtida a partir do alinhamento en- 
tre a sequência alvo e possíveis candidatos a 
molde (Figura 3-7). 

0 enovelamento da proteína pode ser visto, em últi- 
ma instância, como resultado das forças físicas atuan- 
do sobre os átomos da proteína. Sendo assim, a 
formulação mais acurada para se estudar o enovela- 
mento ou predizer a estrutura de proteína é baseada 
em representações com todos os átomos explícitos 
(também chamados de all-atom, ver capítulo 8). 0 
problema de tal representação é o nível de complexi- 


dade introduzida, que torna o problema muito difícil de 
ser tratado com a capacidade computacional disponí- 
vel atualmente. Por razões práticas, a maioria dos mé- 
todos de predição faz uso de representações 
simplificadas da proteína, assim limitando o número de 
conformações a serem avaliadas (o chamado espaço 
conformacional), e adotam funções de energia empíri- 
cas (ou semi-empíricas) ou baseadas em conhecimento 
( knowledge-based) que capturam as forças mais im- 
portantes que impulsionam e estabilizam o enovela- 
mento. 

As conformações que estão associadas 
ao mínimo global da função de energia são 
consideradas as prováveis conformações na- 
tivas que a proteína adota em condições fisi- 
ológicas. Dessa forma, os métodos de 
predição de estrutura de proteínas apresen- 
tam, nas suas metodologias, as seguintes ca- 
racterísticas em comum: 

i) Uma representação da estrutura da 
proteína e um conjunto de graus de li- 
berdade que define o espaço de confor- 
mações: 

ii) Funções de energia compatíveis com 
a representação: 

Ui) Algoritmos para realizar a busca no 
espaço de conformações. 

Representação da estrutura e do 
espaço de conformações 

A representação tridimensional de uma 
molécula pode ser dada pela posição geomé- 
trica de seus átomos em um sistema de co- 
ordenadas cartesianas (x, y, z) ou pelas 
chamadas coordenadas internas (Figura 4-7). 
Nesta última, para cada átomo são fornecidas 
informações relativas ao comprimento de li- 
gação, ângulo de ligação e ângulo de torção 
(ou ângulo diedral). 

A representação computacional de uma 
proteína pode ser feita baseada em todos os 
seus átomos (modelos all-atom), em “áto- 
mos unidos” (alguns átomos de hidrogênio 
são considerados implicitamente), e em 
agrupamentos de átomos (ou coarse-grained) 
(ver capítulo 8). Independentemente da es- 
tratégia, as formas de definição são equiva- 
lentes. 
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Sequência ALvo 
(formato FASTA) 



154 


Figura 3-7: FLuxograma para a predição da estrutura tridimensional de uma proteína. O valor de 
25% é apenas uma referência e depende de outros fatores, tais como a cobertura com a 
sequência alvo. 
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(A) Sistema de coordenadas cartesianas 
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(B) Sistema de coordenadas internas 
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Figura 4-7: Exemplo de representações de uma molécula de etano. Em ambos os sistemas, cada 
linha representa um átomo. Em A, temos ainda a definição do número de átomos (NATM), do 
tipo do átomo (ATM), do nome do resíduo (RES), do rótulo da cadeia (CAD), do número do 
resíduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definição das 
propriedades descritas em OCUP e BETA, ver capítulo 13. Em B, temos definido o elemento 
químico (ATM), o comprimento da ligação (BOND), o número do átomo com o qual há a ligação 
(REF1, por exemplo, o átomo 7 está ligado ao átomo 1, distando deste 1,0 Â), o valor do ângulo 
de ligação (ANG), o número do átomo com o qual há a formação do ângulo (REF2, por exemplo, 
o átomo 8 está ligado ao 2 e faz um ângulo de 109,5° com o átomo 1), o valor do ângulo de 
diedro (TORC) e, por fim, o número do átomo com o qual está definida a torção. 


Outro aspecto a ser definido nessa eta- 
pa são os graus de liberdade que irão definir o 
espaço de conformações, isto é, de que for- 
ma será definida a flexibilidade estrutural que 
irá permitir construir diversas estruturas pa- 
ra as sequências alvo. Tipicamente, os méto- 
dos de P5P adotam geometrias de ligação 
rígidas, isto é, o comprimento das ligações é 
fixo em um valor de referência, assim como 
os ângulos entre as ligações. 

Usando uma representação em coorde- 
nadas internas, os graus de liberdade para 
modificação da estrutura são os ângulos de 
torção, mais especificamente os ângulos die- 
drais do esqueleto peptídico: cp, \|/ e co (Figura 

5- 7, ver também capítulo 2) além dos ângulos 
diedrais das cadeias laterais: % 1 até (Figura 

6- 7). A definição desses ângulos é suficiente 


para construir uma estrutura muito próxima à 
estrutura nativa de proteínas, de forma muito 
mais simples do que lidar com o sistema de 
coordenadas cartesianas. 
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Figura 5-7: Ângulos de torção (diedrais) da 
cadeia principal da proteína. 
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Figura 6-7: Ângulos de torção (diedrais) da 
cadeia lateral do aminoácido lisina. Até 
quatro ângulos de torção definem a 
conformação da cadeia lateral de qualquer 
aminoácido. 

Funções de energia 

As conformações geradas pelo algorit- 
mo de predição de estrutura 3D de proteínas 
devem ser avaliadas seguindo um critério de 
qualidade. Geralmente, esse critério é dado 
pela energia total da estrutura. Essa energia 
pode ser calculada considerando diversos as- 
pectos físico-químicos e diferentes níveis de 
simplificações. Os parâmetros desta função 
são usualmente retirados de campos de força 
clássicos (ver capítulo 8) e, de maneira geral, 
é uma função dependente da posição dos 
átomos (ou grupos de átomos) em relação 
aos seus vizinhos. Nestas funções, a energia 
total é determinada pela posição dos átomos, 
e é dada pela combinação das energias 
fornecidas pelos potenciais diedral próprio, 
Lennard-Jones e Coulomb (ver capítulo 8). 

Algumas abordagens usam funções de energia po- 
tencial od hoc , que refletem características gerais das 
proteínas, e potenciais estatísticos parametrizados a 
partir de bancos de dados de estruturas conhecidas. 
Alguns métodos lançam uso de funções efetivas de 
5olvatação que modelam as interações entre a proteína 
e o solvente (implícito). 

De maneira geral, do ponto de vista 


energético, consideramos a estrutura nativa 
de uma proteína como sendo a estrutura de 
menor energia total. Idealmente, a função 
aplicada deve ser capaz de separar estruturas 
nativas de não nativas e, além disso, de avali- 
ar o quanto uma estrutura está mais próxima 
da nativa em relação à outra através da com- 
paração das energias. Tendo em vista esse 
quadro ideal, a definição da função de energia 
é um dos aspectos mais difíceis em P5P. 

Frequentemente, deve-se decidir entre aumentar a 
complexidade da função de energia (o que nem sempre 
garante aumento de precisão) ou usar um modelo mais 
simplificado para manter um custo computacional que 
torne o cálculo exequível dentro da infraestrutura 
computacional disponível. 0 uso de funções com po- 
tenciais estatísticos parametrizados por estruturas co- 
nhecidas á uma tentativa de sanar essas dificuldades. 
No entanto, isso acaba introduzindo outros problemas, 
como a alta dependência da parametrização e até 
mesmo a perda de generalidade na aplicação, ou seja, 
um potencial parametrizado para uma classe de pro- 
teínas irá apresentar resultados imprecisos quando 
aplicado a outra classe. 

Algoritmos de busca 

0 algoritmo de busca é o componente 
responsável por gerar a conformação inicial, 
avaliar sua qualidade usando a função de 
energia, gerar novas conformações e avaliá- 
las em um processo iterativo até que algum 
critério de parada esteja satisfeito. 0 proble- 
ma de predição de estrutura de proteínas é, 
geralmente, definido como um problema de 
minimização. Assim, a busca é feita pela con- 
formação que minimize a função de energia, a 
qual se espera que seja a conformação nativa. 

0 problema de otimização possui algumas carac- 
terísticas que o tornam extremamente complexo. Por 
exemplo, a função de energia apresenta uma multimo- 
dalidade massiva (ou seja, possuem um número muito 
grande de mínimos locais), degenerescência de míni- 
mos e grandes regiões de conformações inválidas. 
Além disso, o problema está associado a um número 
muito grande de graus de liberdade com grande inter- 
dependência. 

As abordagens empregadas na resolução desse 
problema frequentemente fazem uso de métodos de- 
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nominados metaheuristicos (Figura 7-7). Estes méto- 
dos constituem-se em técnicas iterativas de otimização 
nas quais uma solução candidata vai sendo melhorada 
seguindo uma medida de qualidade. Esses métodos 
não fazem uso de informações sobre a função de ava- 
liação ou mesmo sobre o problema, no entanto não há 
garantias de se encontrar a solução ótima. Os métodos 
metaheuristicos mais comuns incluem aqueles deno- 
minados Monte Cario e Algoritmos Genéticos. No en- 
tanto, alguns métodos usam metaheurísticas 
combinadas a métodos determinísticos baseados no 
gradiente da função, tais como o método do máximo 
declive (steepest descent). Esses últimos são geral- 
mente aplicados em etapas de refinamento e apenas 
com funções de energia deriváveis. 



Figura 7-7: Esquema de uma busca usando 
metaheurística para predição de estrutura de 
proteína. A estrutura inicial é modificada a 
cada passo e vai sendo avaliada segundo um 
critério energético até que se obtenha uma 
estrutura de mínimo. Idealmente, deseja-se 
uma estrutura de mínimo global (área em 
verde) e não uma de mínimo local (área em 
vermelho). 

7.5. Modelagem comparativa 

No método de modelagem comparativa, 
também chamada de modelagem por homo- 
logia, a proteína de interesse (alvo) terá sua 
estrutura 3D predita usando como referência 
a estrutura 3D de outra proteína similar 
(também chamada de molde, e na maioria das 
vezes evolutivamente relacionada). Essa pro- 


teína similar tem de possuir estrutura 3 D re- 
solvida experimentalmente, e as coordenadas 
cartesianas de seus átomos devem estar de- 
positadas em banco de dados de estruturas 
como o PDB. 

A modelagem comparativa é o método 
empregado mais frequentemente, e seu limite 
de predição está intrinsecamente relacionado 
com o grau de similaridade entre as estrutu- 
ras alvo e molde. Geralmente, consideram-se 
como limites mínimos de aplicabilidade do 
método valores de 25 a 30% de identidade, 
obtidos através do alinhamento entre a es- 
trutura 1 ária da proteína alvo e de uma ou mais 
proteínas molde. A modelagem comparativa 
pode ser dividida em cinco etapas descritas a 
seguir e resumidas na Figura 8-7. 

Identificação de referências 

Tem por objetivo identificar sequências 
de aminoácidos de proteínas resolvidas expe- 
rimentalmente que possuam similaridade 
com a sequência da proteína de interesse (se- 
quência alvo), cujas estruturas serão empre- 
gadas posteriormente como moldes. Essa 
identificação pode ser feita através de algo- 
ritmos de alinhamento, sendo selecionadas 
como referências as proteínas que possuírem 
os maiores índices de similaridade e identida- 
de (suficientes para se inferir homologia entre 
as sequências), menores índices de gaps e a 
maior cobertura da sequência (relação entre a 
quantidade de aminoácidos alinhados entre as 
duas sequências e o tamanho total da se- 
quência alvo). 

Seleção dos moldes 

Dentre as referências, é necessário es- 
colher uma ou mais estruturas que servirão 
de molde para a construção do modelo 3 D fi- 
nal. Nesta etapa, é imprescindível a análise do 
papel biológico da proteína de interesse. Os 
critérios de seleção podem incluir: 

i) a proteína de interesse e o possível 
molde pertencem a uma mesma família 
de proteínas: 

//') ambas desempenham preferencial- 
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Figura 8-7: Etapas de predição de estrutura tridimensional de proteínas usando o método de 
Modelagem Comparativa. 
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mente a mesma função ou tenham fun- 
ções correlacionadas; 

Ui) as estruturas resolvidas experimen- 
talmente possuam alta qualidade (por 
exemplo, resolução ^ 2 Â, fator R < 
20%); 

iv ) em tratando-se de uma enzima, é re- 
comendado o uso de um molde cuja es- 
trutura já tenha sido resolvida 
experimentalmente com seu substrato, 
ligante ou modulador. 

Na escolha de mais de uma estrutura 
molde, é importante realizar o alinhamento 
estrutural entre estas de forma a identificar 
regiões conservadas, sítios de ligação, águas 
estruturais e ligações dissulfeto conservadas. 

Alinhamento entre as sequências 

Uma vez escolhida(s) a(s) estrutura(s) 
molde, é necessário realizar alinhamento en- 
tre as sequências alvo e molde de forma a 
garantir que toda a proteína de interesse seja 
modelada (agora empregando programas 
como Clustal, T-Coffee e Muscle). Um alinha- 
mento com mais de 40% de identidade é o 
suficiente para gerar um modelo confiável. 
Entretanto, é importante lembrar que o mo- 
delo final será uma representação desse ali- 
nhamento gerado. Portanto, regiões sem 
alinhamento significativo com o molde são 
preditas tridimensionalmente (quando predi- 
tas) sem grande confiabilidade, usando geral- 
mente dados estatísticos gerais sobre 
estruturas de proteínas. 

Para as regiões sem alinhamento, deve-se conside- 
rar: 

i) a posição dessa região na sequência de ami- 
noácidos, verificando-se possíveis sítios de cliva- 
gem (principalmente em porções N- e 
C-terminal); 

ii) o tamanho dessa porção, considerando-se a 
possibilidade de formação de um novo domínio 
até então não identificado nessa família: 

iii) se são porções transmembranares, sejam 
preditas in silico (por exemplo, através das fer- 
ramentas TMHMM, HMMTOP, TMPred) ou já des- 
critas em literatura porém ausentes nas 


estruturas molde; 

iv) o tipo de estrutura 2 árla predita in silico por mais 
de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e 
PORTER), usando as regiões de consenso entre elas 
como informação de restrição de tipo de estrutura 2 ária 
durante a etapa de construção do modelo. 

Alternativamente, métodos híbridos po- 
dem ser aplicados para a predição de porções 
sem alinhamento. Para essas regiões, apli- 
cam-se os métodos de predição de enovela- 
mento ou primeiros princípios e usa-se a 
melhor estrutura predita como mais um mol- 
de para o método de modelagem comparati- 
va. 

Construção do modelo 

A partir do alinhamento global entre as 
sequências alvo e molde, algoritmos específi- 
cos para PSP via modelagem comparativa 
irão transferir as informações extraídas da 
estrutura 3 D da proteína molde para o mode- 
lo. As técnicas mais aplicadas são as de 
construção usando corpos rígidos e por sa- 
tisfação de restrições espaciais. 

A técnica de construção usando corpos rígidos 
constrói um modelo por partes, baseando-se na con- 
servação de estruturas entre proteínas homólogas ou 
com grau significativo de identidade. As regiões estru- 
turalmente conservadas da proteína de interesse são 
definidas através de predição de estruturas 2 arias . Es- 
sas regiões são alinhadas com o molde, considerando- 
se a média das posições dos Ca das sequências de ami- 
noácidos das regiões estruturalmente conservadas. 

As regiões que não satisfazem as exigências são 
chamadas de regiões variáveis. Essas compreendem, 
geralmente, porções de alças que conectam as regiões 
conservadas. A cadeia principal dessas regiões pode 
ser obtida em bancos de dados específicos de estrutu- 
ras, que apresentam conjuntos de alças classificados 
pelo número de aminoácidos e pelo tipo de estruturas 
2 arias que conectam. 

Após a inserção das regiões de alças, um modelo 
inicial do esqueleto peptídico estará pronto, restando 
apenas a inserção das cadeias laterais dos aminoácidos 
através de busca em bibliotecas de rotâmeros. Como 
exemplo de programa baseado nesta técnica, pode-se 
mencionar o portal Swiss-Model. 
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A segunda técnica mais comum, a construção por 
satisfação de restrições espaciais, inicia-se pelo alinha- 
mento entre as sequências alvo e molde, extraindo-se 
desse molde suas restrições espaciais (distâncias e ân- 
gulos) e transferindo-as para o modelo. Por exemplo, o 
tamanho das ligações e seus ângulos preferenciais são 
obtidos de campos de força. Dessa forma, á possível 
limitar o número de possíveis conformações que o 
modelo pode assumir. 

A principal característica dessa técnica é a obten- 
ção empírica das restrições espaciais, expressas por 
funções de probabilidade, a partir de bancos de dados 
contendo informações sobre alinhamentos entre es- 
truturas proteicas de alta resolução. As restrições es- 
paciais e os termos de energia são combinados em 
uma função objetivo, sendo submetida a métodos de 
otimização por gradiente conjugado e recozimento si- 
mulado, visando a minimização das violações das res- 
trições espaciais. Como exemplo de emprego desta 
técnica, pode-se citar o programa Modeller. 

Validação do modelo 

Após a construção do modelo, é neces- 
sário identificar possíveis erros relacionados 
aos métodos empregados, à escolha das re- 
ferências e ao alinhamento entre as sequên- 
cias alvo e molde. Caso o modelo seja 
caracterizado como de má qualidade, todo o 
protocolo anterior deve ser revisto no intuito 
de se melhorar o alinhamento, escolher ou- 
tros moldes ou até mesmo decidir-se pelo 
uso de outros métodos. Os principais méto- 
dos de validação de um modelo serão descri- 
tos adiante (item 7.10). 

Por ser dependente de uma estrutura 
3D resolvida experimentalmente, a técnica de 
modelagem comparativa possui certas limi- 
tações, tais como: 

i) nem sempre se consegue uma estru- 
tura molde para a proteína de interesse: 

ii) o grau de similaridade conseguido 
entre as sequências alvo e molde pode 
ser pequeno (<3G% de identidade), 
mesmo em regiões do sítio ativo, invia- 
bilizando o emprego desta técnica; 

Ui) por vezes, as sequências que podem 
servir como moldes possuem qualidade 
insuficiente para a construção de um 


modelo adequado. 

Nesses casos, como citado anterior- 
mente, o uso adicional de informações, como 
a identificação de regiões transmembranares, 
a predição de regiões de peptídeo sinal, a 
predição de tipo de estrutura 2 ária , a predição 
do tipo de enovelamento e a verificação da 
existência de dados teóricos e experimentais 
quanto à existência, quantidade e localização 
de porções transmembranares, ligantes e 
número e tipo de cadeias podem contribuir 
tanto na construção de modelos tridimensio- 
nais como na anotação funcional de sequên- 
cias. 

No caso de análises em larga escala de conjuntos 
de proteínas, e até mesmo de genomas inteiros, todo 
esse processo deve ser realizado para cada proteína de 
interesse. Considerando o tempo gasto em cada uma 
dessas etapas, é interessante o uso de métodos auto- 
matizados que podem ser empregados como um filtro 
inicial para a detecção de quais proteínas podem ser 
modeladas por modelagem comparativa e para a ob- 
tenção de um modelo inicial para cada uma dessas 
proteínas, a ser otimizado individualmente. Como 
exemplo de programa usado para a análise em larga 
escala de sequências de proteínas, citamos o progra- 
ma MHOLline. 

7.6. Predição do enovelamento 

O método de predição do enovelamento 
ou threading parte da ideia de observações de 
que a estrutura 3D é mais conservada que a 
sequência, de forma que mesmo sequências 
com pouca similaridade podem possuir es- 
truturas muito semelhantes, o que limita o 
número de enovelamentos que proteínas po- 
dem assumir. Atualmente, mais de 1.000 ti- 
pos de enovelamento já foram registrados, e 
acredita-se que esse valor não ultrapasse a 
previsão máxima de 7.000 tipos. 

Nesse método, também são usadas 
proteínas com estruturas 3D conhecidas e 
depositadas no PDB, de onde as informações 
sobre os tipos de enovelamento são extraídas 
e armazenadas em bancos de dados de tipos 
de enovelamentos. Como exemplo, citamos o 
CATH (Cíoss, Architecture, Topology, 
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Homology) e o SCOP ( StructuraL Classification 
of Proteins). 

O método de predição do enovelamento 
é assim menos dependente da proximidade 
evolutiva entre a sequência de aminoácidos da 
proteína de interesse e seus possíveis moldes, 
ou seja, as sequências podem apresentar bai- 
xa identidade. O método é portanto aplicável 
quando o alinhamento entre a estrutura 1 ária 
da proteína de interesse e de uma ou mais 
proteínas de referência (moldes) apresentam 
uma identidade entre 20% e 30%. 

No problema de PSP via predição do enovelamento 
tenta-se ajustar a estrutura 1 ária da proteína de interes- 
se aos tipos de enovelamentos de proteínas conheci- 
dos, analisando principalmente as conservações de 
estruturas 2 arias . Esse método pode ser dividido nas 
seguintes etapas: 

i) Reconhecimento do tipo de enovelamento pela 
análise das principais propriedades da proteína 
de interesse (tais como estrutura 2 aria , polarida- 
de de cadeias laterais e hidrofobicidade); 

ii) Construção do melhor alinhamento possível 
entre a sequência de aminoácidos da proteína de 
interesse e estruturas depositadas em bancos de 
dados. Alguns métodos baseiam-se na constru- 
ção de modelos simplificados (como modelos 
baseados em Ca) da proteína de interesse a par- 
tir da estrutura 3D de possíveis moldes, e avali- 
am a qualidade do modelo através da otimização 
de funções objetivo (geralmente não-lineares). 
Essas funções podem considerar, por exemplo, 
resultados de alinhamentos múltiplos de se- 
quências e de estruturas 2 arias , matrizes de 
substituição para cada aminoácido dentro de 
uma família específica de proteínas e penalização 
de gaps, 

iii) Escolha do(s) melhor(es) molde(s) para a 
construção da estrutura 3D da proteína de inte- 
resse, geralmente baseada em funções de pre- 
dição de erro/qualidade entre os possíveis 
modelos simplificados e seu(s) molde(s) (por 
exemplo, a função TM-score). A escolha dos 
melhores moldes por vezes é baseada em bibli- 
otecas de fragmentos: 

iv) Construção do modelo 3 D através de técnicas 
similares às empregadas na modelagem com- 
parativa, por vezes valendo-se de ferramentas 
acopladas aos programas Swiss-Model ou Mo- 


deller. Alguns programas empregam, para as 
regiões sem molde, métodos por primeiros prin- 
cípios. Como exemplo de programas para PSP 
via predição do enovelamento pode-se citar os 
programas HH-Pred e l-TASSER. 

As limitações dos métodos de predição 
do enovelamento vêm de dois pontos princi- 
pais. 0 primeiro é similar ao observado para a 
modelagem comparativa, isto é, se a identi- 
dade entre a sequência alvo e as proteínas 
utilizadas na construção do banco de enove- 
lamentos for muito baixa, é possível que o 
enovelamento daquela sequência simples- 
mente não esteja representado no banco. As- 
sim, o método pode construir um modelo 
completamente errado. A outra limitação é 
que os modelos apresentam uma resolução 
relativamente baixa, dificultando seu uso em 
estudos que exigem posicionamento preciso 
dos átomos como no caso do atracamento 
(ver capítulo 9). 

7.7. Métodos de novo 

Embora a modelagem comparativa e a 
predição do enovelamento permitam a ob- 
tenção de modelos satisfatórios, tais técnicas 
são inválidas se proteínas de referência, com 
estruturas determinadas experimentalmente, 
não se encontrarem disponíveis. De forma a 
manter a independência de moldes de proteí- 
nas homólogas, foram desenvolvidos méto- 
dos que usam informações provenientes de 
bancos de estruturas de proteínas determi- 
nadas empiricamente, sem a necessidade de 
haver identidade com a sequência alvo, resul- 
tando na predição chamada de novo. Dentre 
as principais técnicas usadas pela predição de 
novo destacam-se o uso da predição de es- 
truturas 2 árias , uso de fragmentos de proteí- 
nas, e modificação da função de energia. 

Predição de estruturas 2 árias 

A predição de estruturas 2 árias envolve o 
conjunto de técnicas que visam reconhecer as 
categorias de estruturas 2 as (tipicamente hé- 
lices e folhas) associadas a cada região de 
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uma proteína a partir apenas de sua sequên- 
cia. Por 30 anos, o cenário de técnicas de 
predição de estruturas 2 árias foi composto por 
métodos que se baseavam na propensão de 
um resíduo pertencer a uma determinada es- 
trutura 2 ária . Na década de 1990, uma nova 
geração de métodos que considerava os efei- 
tos trazidos pelos resíduos adjacentes surgiu, 
contemplando os efeitos de interações locais 
na predição, o que alçou a precisão das predi- 
ções a um patamar acima de 60%. 

0 crescimento de bancos de dados de 
proteínas em combinação a algoritmos mais 
sofisticados permitiu a inclusão de informa- 
ções relacionadas ao enovelamento da pro- 
teína nestas predições, principalmente 
aquelas relacionadas aos efeitos de intera- 
ções de longo alcance. Esses novos métodos 
baseiam-se em alinhamentos múltiplos e sua 
consequente informação evolutiva. Em sua 
maioria, esses métodos valem-se do PSI- 
BLA5T (ver capítulo 3). Os atuais métodos de 
predição de estruturas 2 árias possuem de- 
sempenho em torno de 80% de precisão, 
dentre os quais destacam-se PSIPRED, DSC, 
GOR IV, Predator, Prof, PROFphd e SSpro. 

Fragmentos de proteínas 

A determinação da estrutura da RBP 
(Retinol Binding Protein) em 1986, em parti- 
cular de seu sítio ativo, se mostrou desafia- 
dora por sua estrutura não se parecer com 
nenhuma até então conhecida (Figura 9-7). 
Diante das dificuldades de se concluir tal tra- 
balho de determinação, os pesquisadores re- 
solveram buscar informações em todo o 
banco do PDB (na época contava com apenas 
213 entradas), procurando por quaisquer es- 
truturas (ou regiões/segmentos destas) se- 
melhantes que pudesse substituir o sítio em 
estudo. Nessa busca, os autores perceberam 
que a segmentação das proteínas em peque- 
nos fragmentos resultava em uma surpreen- 
dente redundância estrutural, ou seja, 
pequenos fragmentos com estruturas simila- 
res apresentavam similaridade de sequência 
(localmente). 

Isso permitiu a construção de um mo- 
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Figura 9-7: Retinol Binding Protein com o 
retinol no sítio ativo, código PDB: 1RBP. 

delo da RBP a partir de fragmentos de outras 
proteínas, sem qualquer grau de similaridade 
global, e previu-se que se tratava de uma 
proteína organizada em uma série de oito fi- 
tas p antiparalelas, constituindo um barril-p 
que encapsula a molécula de retinol. A facili- 
dade com que uma estrutura, então conside- 
rada incomum, foi prevista usando-se 
estruturas parciais de muitas proteínas dife- 
rentes levou os autores a questionarem se 
haveria alguma estrutura de proteína que pu- 
desse de fato ser considerada única, e a pro- 
posta desta técnica de modelagem por meio 
de fragmentos proteicos cujas estruturas ti- 
vessem sido determinadas experimental- 
mente (ou seja, empiricamente). 

A preservação de certo grau de simila- 
ridade estrutural entre trechos curtos de se- 
quências semelhantes é a chave para a 
predição na ausência de moldes ( templote - 
free) de estruturas de proteínas. Quando não 
há qualquer proteína homóloga disponível pa- 
ra ser usada como molde, é possível usar um 
conjunto de pequenos fragmentos que se 
correlacione localmente com a estrutura da 
proteína alvo (Figura 10-7). 

Entretanto, deve-se perceber que por 
maior que seja a similaridade entre duas se- 
quências de fragmentos, a similaridade es- 
trutural é apenas parcial. Como cada 
fragmento, sendo proveniente de uma proteí- 
na diferente, encontra-se imerso em um am- 
biente físico-químico próprio, o conjunto de 
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interações que agem sobre esses fragmentos 
podem conferir-lhes estruturas diferentes 
(Figura 11-7). 



Figura 10-7: Fragmentos estruturalmente 
semelhantes, mas que possuem sequências 
de resíduos diferentes. 

Duas características devem ser levadas 
em consideração para se trabalhar com frag- 
mentos de proteínas na predição de estrutu- 
ras: a primeira é que uma mesma sequência 
pode levar a estruturas diferentes, e a segun- 
da é que duas sequências diferentes podem 
levar à mesma estrutura. Dessa forma, se faz 
necessário a construção de uma lista de frag- 
mentos candidatos a reproduzir uma dada re- 
gião da proteína alvo. 


0 primeiro desafio para a predição de 
estruturas usando fragmentos é montar uma 
biblioteca de fragmentos que reúna as me- 
lhores estruturas candidatas a reproduzir a 
região da sequência alvo, a partir de um banco 
de proteínas determinadas empiricamente. 
Como discutido anteriormente, pode-se usar a 
similaridade entre as sequências dos frag- 
mentos retirados das proteínas do banco e a 
região de interesse da proteína alvo. Os pro- 
gramas Rosetta e QUARK usam o PSI-BLAST 
para reconhecer o quão similares são as se- 
quências de um fragmento e da respectiva 
região da proteína. 

Como exemplo da geração de uma bibli- 
oteca de fragmentos podemos citar o pro- 
grama Protein Fragment Generator - 
Profrager. Nele, os fragmentos são extraídos 
de uma versão do PDB filtrada para eliminar 
as diversas redundâncias existentes entre as 
estruturas. Cada fragmento é iniciado em um 
resíduo da proteína e se estende pelo compri- 
mento desejado. Uma biblioteca de fragmen- 
tos, por exemplo de 6 resíduos, compreende 
os resíduos das posições la 6, 2a 7, 3a8e 
assim sucessivamente. De posse dos frag- 
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Figura 11-7: Fragmentos de proteínas com a mesma sequência de resíduos que possuem 
estruturas diferentes. Acima, as proteínas de código PDB 1F8E (fragmento destacado entre os 
resíduos 243 e 247) e 1BGP (resíduos 63 a 67): abaixo, 1LM5 (2800 a 2804) e 1X55 (121 a 125). 
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mentos extraídos do banco, o problema tor- 
na-se então escolher os melhores para re- 
produzir cada região. 

Na Figura 12-7 está representada uma 
biblioteca com fragmentos de 6 resíduos para 
uma dada proteína. 0 primeiro fragmento do 
banco é alinhado à primeira posição da pro- 
teína. Os resíduos do fragmento são compa- 
rados com as entradas da matriz BL0SUM62. 
Nesse exemplo, o valor da substituição de 
uma valina por uma asparagina é -3, e a 
substituição de um glutamato por uma lisina é 
+1. Somando os valores da comparação entre 
todos os resíduos do fragmento com os da 
respectiva região da sequência alvo, temos 
uma pontuação total de -8 para esse frag- 
mento. 0 segundo fragmento do banco é to- 
mado, e o processo de comparação 
resíduo-resíduo entre o fragmento e a se- 
quência alvo é repetido. Nesse exemplo, tem- 
se uma pontuação total de +11 para o segundo 
fragmento. 0 processo ilustrado para a atri- 
buição da pontuação é repetido para todos os 
fragmentos do banco, sempre para uma ja- 
nela de leitura de 6 resíduos. Ou seja, desloca- 
se um resíduo para a direita e reinicia-se o 
processo, formando uma nova lista de frag- 
mentos para esta nova posição. 

Uma lista de candidatos a reproduzir a 
sequência alvo é montada de acordo com 
uma pontuação. Parte dessa pontuação é o 
grau de similaridade entre a sequência do 
fragmento e da região correspondente da se- 
quência alvo. A outra parte da pontuação é a 
concordância da estrutura 2 ária do fragmento 
com a estrutura 2 ária predita pelo PSIPRED 
para a sequência alvo. Ao final, a biblioteca de 


fragmentos conterá os fragmentos que pos- 
suem as maiores pontuações, logo, os frag- 
mentos mais prováveis para a reprodução da 
estrutura local. 

Se o uso de um fragmento de uma proteína conhe- 
cida elimina a necessidade de se modelar a região lo- 
calmente, o problema torna-se escolher a melhor 
estrutura para cada região. De posse de uma biblioteca 
de fragmentos, o trabalho torna-se um problema de 
otimização, abordado por um algoritmo de busca, onde 
se procura reconstruir a proteína usando as informa- 
ções trazidas pelos fragmentos, validando-se a estru- 
tura gerada usando uma determinada função de 
energia. 

É importante notar que, embora sejam 
dependentes de bancos de estruturas, os 
fragmentos não precisam ser provenientes de 
proteínas com grau elevado de identidade, o 
que permite a modelagem de estruturas iné- 
ditas. Modelos obtidos com o uso de frag- 
mentos demonstram utilidade para 
inspirações biológicas e têm obtido sucesso 
nas demais áreas da modelagem de proteí- 
nas, tais como predição de sítios ativos e 
identificação de padrões de enovelamento, 
atracamento proteína-proteína, modelagem 
de voltas e até mesmo desenho de novas 
proteínas. 

As limitações dos métodos de novo são 
praticamente as mesmas dos métodos por 
primeiros princípios. Sua aplicação é, em ge- 
ral, limitada a sequências mais curtas (<150 
resíduos), e alguns dos métodos podem estar 
sujeitos a artefatos se a parametrização das 
funções estatísticas não for feita com cuida- 
do. 


VKDGYIVDDVNCTY 

Primeiro fragmento 

N c e L T K 


VKDGYIVDDVNCTY 


tttttt 


Segundo fragmento 




- 3 + 1 + 2 - 3 - 2-3 
score: -8 


+ 3 + 1 - 1 - 1 + 7+2 
score: +11 


Figura 12-7: Geração de um fragmento de seis resíduos. 
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Campos de força estatísticos 

Campos de força clássicos (ver capítulo 
8) são comumente empregados para a re- 
presentação de interações intramoleculares 
da estrutura de proteínas, como ângulos e 
comprimentos de ligação, ângulos diedrais, 
forças de van der Waals e eletrostáticas. En- 
tretanto, os métodos de maior sucesso nos 
últimos anos para predição da estrutura de 
proteínas empregam termos estatísticos de- 
rivados de proteínas cujas estruturas já são 
conhecidas, seja de forma exclusiva ou com- 
binados com termos de campos de força 
clássicos. Isso culmina nos chamados campos 
de forças estatísticos, cujo desenvolvimento 
se tornou amplamente disseminado. 

Uma das formas de representar o uni- 
verso de conformações que uma determinada 
sequência polipeptídica pode adotar é através 
de uma superfície, onde cada ponto repre- 
senta uma dada conformação. Nesta superfí- 
cie, a altura de cada ponto representa a 
energia da conformação, de forma que con- 
formações de menor energia estarão no fun- 
do da superfície, e conformações de maior 
energia em seu topo. 

Assim, os termos de campos de força 
estatísticos são derivados usando-se um 
conjunto de proteínas teste com a intenção de 
suavizar a superfície de energia, garantindo 
que a conformação de menor energia (ou mí- 
nimo global) corresponda à conformação na- 
tiva, e os mínimos locais sejam pouco 
frequentes e com valores de energia distantes 
do mínimo global. A configuração ideal de 
uma função de energia faz com que as bar- 
reiras entre os mínimos sejam menores, per- 
mitindo ao algoritmo de busca a passagem de 
um mínimo local a outro, facilitando a busca 
pelo mínimo global (Figura 13-7). 

Tomemos como exemplo um dos ter- 
mos mais comuns nas funções de energia, as 
ligações de hidrogênio. Alguns autores des- 
creveram que é possível gerar todas as es- 
truturas contidas no PDB a partir de um 
conjunto de representações de ligações de hi- 
drogênio, o que torna interessante um termo 
do campo de força exclusivamente dedicado 


ao tratamento dessas ligações. Já se verificou 
que os termos usados em campos de força 
clássicos não são capazes de representar to- 
das as ligações de hidrogênio em suas orien- 
tações corretas. Assim, um termo estatístico 
exclusivo para ligações de hidrogênio se 
mostra fundamental para a predição de novo. 



Figura 13-7: Efeito de suavização da superfície 
de energia. 

Este termo contribui na avaliação da propensão de 
formação de estruturas 2 árlas (ver capítulo 2), usando o 
valor da probabilidade de um par de resíduos 
possuir uma ligação de hidrogênio. A probabilidade po- 
de ser calculada de acordo com a equação abaixo: 

Ha, a) = -lo^F 0 {ap)/Fja j a)] 

onde aflj é o par de resíduos, F 0 [ap •.) é a frequência ob- 
servada para as ligações de hidrogênio entre os resí- 
duos avaliados e Fjpp) é a frequência estimada a 
partir de um conjunto de estruturas enoveladas incor- 
retamente. 

Um exemplo de aplicação destes termos estatísti- 
cos é o programa QUARK, um dos métodos de maior 
sucesso no CASP. É relatado que sua capacidade de re- 
finar estruturas á devida à parametrização de seu 
campo de força, puramente estatístico. A correlação 
entre a energia e a similaridade estrutural com a con- 
formação nativa segundo o OUARK é de 0,7 (sendo 0,0 
a pior correlação possível e 1,0 uma correlação perfei- 
ta). 

7.8. Primeiros princípios 

A predição por primeiros princípios ou 
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ob initio se destaca como sendo a tentativa 
mais ambiciosa para a resolução do problema 
de predição de estrutura de proteínas. Essa 
abordagem difere-se das demais por não usar 
informações de estruturas conhecidas, rela- 
cionadas com a sequência alvo, e por usar 
funções de energia contendo somente termos 
de significado físico. Tal estratégia é baseada 
em dois pressupostos: todas as informações 
necessárias sobre a estrutura de uma proteí- 
na estão contidas em sua sequência de ami- 
noácidos, e acredita-se que as proteínas 
enovelam-se para um estado nativo, ou um 
conjunto de estados nativos, que se encontra 
no (ou próximo ao) mínimo global de energia 
livre. 

Além de prever a estrutura tridimensio- 
nal, os métodos por primeiros princípios po- 
dem contribuir na compreensão dos princípios 
físicos do processo de enovelamento. Adicio- 
nalmente, podem ser aplicados na correção 
ou refinamento de estruturas modeladas por 
outras metodologias ou mesmo na predição 
de proteínas desordenadas. 0 sucesso dos 
métodos destas predições depende, princi- 
palmente, de uma função de energia acurada, 
na qual o estado nativo da proteína corres- 
ponda ao estado termodinamicamente mais 
estável, e de um algoritmo eficiente capaz de 
varrer a superfície de energia (ou seja, gerar 
diversas novas conformações). 

0 enovelamento de uma proteína pode 
ser visto, em última instância, como resultado 
das forças físicas atuando sobre os átomos 
da proteína. 0 campo de força deve capturar, 
ao menos, informações qualitativas essenciais 
das características físicas e químicas que im- 
pulsionam e estabilizam o enovelamento, 
descrevendo as interações intramoleculares 
da proteína e desta com as moléculas de sol- 
vente. Normalmente, usam-se campos de 
força empíricos, muitas vezes complementa- 
dos por um termo de solvatação implícita 
(ver capítulo 8). Tais funções de energia inva- 
riavelmente sofrem aproximações que resul- 
tam em artefatos nos modelos, tais como o 
favorecimento excessivo de estruturas 2 árias 
em hélices em relação a outros tipos de es- 
truturas. 


Apesar do alto grau de complexidade, a 
formulação mais realista para se estudar o 
enovelamento ou prever a estrutura de pro- 
teínas seria baseada em representações com 
todos os átomos explícitos (ver capítulo 8). 
Contudo, a predição por primeiros princípios 
implica em altíssimo custo computacional, e o 
número de conformações possíveis para uma 
sequência de aminoácidos é muito grande pa- 
ra ser exaustivamente amostrado. Por isso, 
parte destes métodos faz uso de modelos de 
energia e representações simplificadas, tais 
como modelos coarse-grained (ver capítulo 
8), acelerando a busca conformacional. 

Os algoritmos de busca mais usados são aqueles 
que envolvem abordagens heurísticas, com destaque 
para os algoritmos genéticos. Há, também, estudos de 
predição por primeiros princípios envolvendo o uso de 
simulações por dinâmica molecular (ver capítulo 8) 
com campos de força clássicos, apesar de essa técnica 
ser mais aplicada a estudos do enovelamento proteico. 

0 primeiro marco na tentativa da predição por pri- 
meiros princípios através de simulações por dinâmica 
molecular foi, provavelmente, nos trabalhos de Duan e 
Kollman, em 1998, com a simulação da proteína viilin 
headpiece (96 resíduos) em solvente explícito, a qual 
envolveu seis meses de computação paralela em larga 
escala (projeto Folding@home). 

A predição por primeiros princípios ainda 
é um problema não resolvido na biologia 
computacional. Ela representa a abordagem 
mais complexa e difícil dentre os métodos de 
predição e ainda está defasada, em termos de 
velocidade e acurácia, quando comparada 
com os demais métodos. Atualmente, seu 
sucesso é limitado a proteínas pequenas, com 
menos de 1ÜÜ resíduos de aminoácidos (Figu- 
ra 14-7). 

Uma grande variedade de métodos vem 
sendo proposta com dois focos importantes: 
rapidez e acurácia. A maioria busca o equilí- 
brio entre esses dois fatores. As diferenças 
entre esses métodos (Tabela 1-7) se encon- 
tram no tipo de representação (ou seja, todos 
os átomos ou modelos coarse-grained), no 
método de busca e na função de energia. 
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Figura 14-7: Resultados obtidos com o 
protocolo ob initio do programa GAPR (A) 
Trp-cage (PDB1L2Y) com 29 aminoácidos. 0 
modelo na esquerda apresenta um RM5D (do 
esqueleto peptídico) de 3,04 Â em relação à 
estrutura experimental na direita. (B) Viliin 
headpiece (PDB1VII) com 36 aminoácidos. 0 
modelo na esquerda apresenta um RM5D de 
3,38 Â (do esqueleto peptídico) em relação à 
estrutura experimental na direita. 


Tabela 1-7: Exemplo de métodos de predição 
ob initio de estrutura de proteínas. 


Método 

Algoritmo de 
busca 

Função de 
energia 

GAPF 

Algoritmo 

genético 

GROMOS96 e 
GAPF-CG 

Profet 

Algoritmo 

evolucionário 

OPLSAA, 
AMBER94, 
AMBER96, 
ECEPP e FLEX 

ProtPred 

Algoritmo 

evolucionário 

CHARMM (v.27) 

Nicosia 

Algoritmo 

evolucionário 

multiobjetivo 

CHARMM (v.27) 

MEAMT 

Algoritmo 

evolucionário 

multiobjetivo 

multitabelas 

CHARMM (v.27) 


7.9. Escolhendo o modelo 

Tanto os métodos de novo (baseados ou 
não em moldes) quanto os por primeiros 
princípios têm em comum a grande quantida- 
de de modelos gerados. Devido à natureza 
estocástica dos algoritmos de busca (e tam- 
bém às imprecisões das funções de energia), 
os procotolos mais usados em P5P consistem 
em executar o algoritmo um grande número 
de vezes com diferentes sementes para o ge- 
rador de números aleatórios. Para efeitos de 
ilustração, um protocolo típico considerado 
próprio para publicação do método Rosetta 
consiste em, no mínimo, 1Ü.ÜÜÜ execuções 
independentes. Dessa forma, cada execução 
irá percorrer uma trajetória diferente no es- 
paço de conformações e poderá terminar em 
uma conformação diferente. 

As estruturas resultantes dessa grande 
amostragem são chamadas de decoys, e um 
problema em aberto na P5P é a filtragem de 
decoys. Atualmente, os protocolos seguem 
alguns passos para a escolha do modelo a ser 
selecionado dentre as milhares de conforma- 
ções geradas. Os dois principais passos são: 
i) Filtragem dos decoys: é feita sobre o 
valor de energia total retornado pela 
função usada pelo método. 

A maioria dessas funções já carrega de forma im- 
plícita (ou explícita) medidas sobre a qualidade estere- 
oquímica da estrutura. Dessa forma, um primeiro filtro 
razoável é investigar apenas os decoys com energia 
semelhante (até certo valor limite) em relação ao 
decoy de menor energia (o melhor segundo o critério 
energético). 

/'/') Agrupamento ( dustering ) dos 

decoys: é a comparação entre as estru- 
turas resultantes do passo anterior e o 
seu agrupamento de acordo com um 
critério de similaridade, por exemplo, 
estruturas com até 3 Â de RM5D são 
colocadas em um mesmo grupo. Assim, 
o pesquisador pode investigar apenas a 
estrutura mais representativa de cada 
grupo. 

Esse passo tem o potencial de reduzir considera- 
velmente o número de modelos a ser investigado, em- 
bora em alguns casos o número de conformações a 
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ser analisado possa ainda ser grande demais. Nesses 
casos, faz-se uso da noção de que, sendo o estado na- 
tivo cineticamente acessível, espera-se que esse seja 
atingido com mais frequência, salvo em trajetórias que 
terminem em mínimos locais muito profundos. Sendo 
assim, realizando um número grande de trajetórias, 
aquele grupo que contém a estrutura nativa é, prova- 
velmente, o maior grupo (ou seja, aquele que contém o 
maior número de conformações após o agrupamento). 
É importante ressaltar que esta hipótese só estaria te- 
oricamente bem fundamentada caso usasse uma fun- 
ção de energia realística e representativa da energética 
do processo de enovelamento. 

Os pacotes de PSP disponibilizam suas 
próprias ferramentas de agrupamento. Pode- 
se, ainda, usar outros programas externos 
com resultados semelhantes, como o 
maxcluster e o programa de agrupamento 
contido no pacote GROMACS (g_cluster). 

Um terceiro passo é a inspeção manual 
por um operador humano de cada modelo 
resultante do segundo passo. Com a análise 
de especialistas treinados, é possível detectar 
possíveis erros no enovelamento e até mes- 
mo sugerir modificações em regiões específi- 
cas dos modelos. Essa etapa opcional ainda 
não é automatizável sendo, de certa forma, a 
mais custosa. 

7.10. Análise de qualidade 

A qualidade de um modelo é determina- 
da por um conjunto de fatores, tais como 
comprimentos de ligação, planaridade das li- 
gações peptídicas, planaridade dos anéis e 
ângulos de torção nas cadeias principal (ou 
seja, esqueleto peptídico) e laterais, quirali- 
dade, impedimento estérico, energia e funcio- 
nal. Adicionalmente, nos métodos baseados 
no uso de estruturas moldes resolvidas ex- 
perimentalmente, para um modelo ser consi- 
derado de boa qualidade é recomendado que 
o valor de RM5D obtido pela sobreposição da 
cadeia peptídica de regiões conservadas do 
modelo gerado e da estrutura molde esteja 
entre 1 Â e 2 Â. Dentre as análises a serem 
feitas, recomenda-se as seguintes: 

i) Estereoquímica: consiste em analisar 


os aspectos tridimensionais de uma 
molécula, a fim de se verificar a estabi- 
lidade conformacional da mesma. Nesta 
análise, são detectadas regiões de ten- 
são angular e torcional, impedimentos 
estéricos e quiralidades. Além destes, 
com a análise do gráfico de Ramachan- 
dran é possível identificar, através da 
correlação entre os ângulos cp e y, quais 
resíduos encontram-se fora das regiões 
energeticamente favoráveis, possibili- 
tando uma melhora no modelo final. 
Exemplos de programas que realizam 
estas análises incluem os programas 
Procheck e Molprobity. 
ii) Energia: são métodos baseados em 
minimização de funções de energia. A 
análise dos valores normalizados da 
função (como o DOPE normalizado do 
Modeller) ajuda a avaliar (ao menos es- 
tatisticamente) quão próximo o modelo 
gerado está de proteínas que possuem 
um mesmo perfil molecular ou até o 
mesmo tipo de enovelamento. Esses 
métodos podem considerar a relação 
entre a estrutura 1D-3D, ponderar a 
propensão de cada aminoácido estar em 
um tipo de estrutura 2 ária , a probabilida- 
de de dois resíduos estarem em contato 
e até mesmo o tipo de função que a 
proteína desempenha. Alguns progra- 
mas bastante usados para estas análi- 
ses incluem Verify3D, ProSa, QMEAN e 
PROVE. 

Ui) Funcional: envolve a comparação do 
modelo obtido com aspectos funcionais 
ou mesmo estruturais (sem resolução 
atomística) determinados por métodos 
experimentais. Por exemplo, diversas 
famílias de proteínas possuem resíduos 
específicos associados à função (como a 
tríade catalítica em serino proteases ou 
resíduos ligadores de metais em meta- 
loproteínas). Assim, o modelo gerado 
deve apresentar tais resíduos nas suas 
localizações específicas para explicar 
dados experimentais prévios. Ainda, 
métodos como dicroismo circular (capí- 
tulo 10), infravermelho (capítulo 11) e 
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RMN (capítulo 12) podem oferecer in- 
formações importantes sobre o estado 
conformacional da proteína em meio bi- 
ológico, validando o modelo obtido. 
Mesmo que as estratégias de análise 
anteriores indiquem um modelo de ele- 
vada qualidade, se o mesmo não for ca- 
paz de apresentar ou explicar 
características conhecidas previamente, 
não poderá ser considerado totalmente 
válido. 

Durante o CASP a análise de qualidade dos modelos 
assume um caráter diferente, uma vez que os avalia- 
dores conhecem a estrutura nativa. Nesse caso, a mé- 
trica empregada para comparar a estrutura nativa com 
os modelos gerados pelos diferentes métodos é o Glo- 
bal Distance Test - GDT. Trata-se de uma medida po- 
tencialmente mais acurada, uma vez que é menos 
sensível a discrepâncias muito grandes, oriundas de 
regiões de voltas que são naturalmente flexíveis. 

7.11. Refinamento do modelo 

Após a análise do modelo, caso a quali- 
dade não tenha sido satisfatória, algumas es- 
tratégias de refinamento no melhor modelo 
obtido podem ser suficientes para a obtenção 
de um modelo final de boa qualidade. Dentre 
os principais tipos de refinamento podemos 
citar: 

i) Local: através da análise estereoquí- 
mica pode-se identificar qual resíduo 
está violando seus valores limites den- 
tro de sua vizinhança, o que geralmente 
é resolvido com o reposicionamento de 
sua cadeia lateral. Em alguns casos, é 
necessário realizar etapas de otimização 
somente de regiões de alças, principal- 
mente de regiões ricas em glicina. É 
sempre importante observar violações 
causadas por prolinas nas extremidades 
de regiões de estruturas em hélice ou 
folha. 

ii) Imposição de restrições: após a análi- 
se de resultados de métodos de predi- 
ção de estrutura 2 ária , pode-se verificar 
no modelo gerado quais regiões não 
possuem ou possuem uma baixa simila- 


ridade de sequência com o(s) molde(s) 
usado(s), ou não obedecem ao tipo cor- 
reto de estrutura 2 ária predita. Para cor- 
rigir isso, é necessário refazer o modelo 
3D impondo ao algoritmo de construção 
o uso de restrições de tipo de estrutura 
2 ária para essas regiões. 

Ui) Dinâmica molecular: Os métodos de 
simulação por dinâmica molecular (ver 
capítulo 8) têm sido empregados na 
melhora de modelos gerados tanto por 
técnicas baseadas em modelagem 
comparativa quanto por primeiros prin- 
cípios. Simulações em solvente explícito 
ajudam a acomodar a estrutura 3D do 
modelo melhorando, principalmente, os 
ângulos cp e \|/ de resíduos em regiões 
desfavoráveis no gráfico de Ramachan- 
dran. 0 tempo de simulação é variável 
de acordo com a complexidade do sis- 
tema e com o grau de refinamento que 
se deseja obter. É importante destacar 
que simulações por dinâmica molecular 
para estruturas transmembranares, 
apesar de bastante recomendado, ne- 
cessitam especial atenção, pois se deve 
considerar o modelo de membrana a 
ser empregado, a forma de inserção do 
modelo 3D da proteína na membrana e 
o tempo de equilibração do sistema 
costuma ser maior que em proteínas si- 
muladas apenas em solvente. 

7.12. Aplicações de modelos 

A aplicabilidade de um modelo 3D está 
diretamente relacionada com a acurácia com 
que este foi gerado. Esta acurácia pode ser 
avaliada pelo grau de similaridade entre as 
estruturas 3D da proteína predita e da proteí- 
na molde, através do cálculo do desvio médio 
quadrático (RM5D), que mede as distâncias 
interatômicas. De acordo com sua acurácia, 
os modelos 3D gerados por métodos teóricos 
podem ser aplicados em: 

i) Estudos de predição funcional e busca 
por novos alvos moleculares em orga- 
nismos patogênicos: 

ii) Planejamento racional de fármacos 
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baseado na estrutura do receptor bioló- 
gico; 

Ui) Estudos de variação conformacional 
por dinâmica molecular; 

iv ) Planejamento de experimentos de 
mutagênese sítio-dirigida, fornecendo 
informações sobre possíveis mutações 
para testar hipóteses funcionais; 

v) Simulações de interações entre pro- 
teínas; 

vi) Auxiliar no refinamento de estruturas 
resolvidas por cristalografia de raios-X e 
por experimentos de RMN. 

7.13. Conceitos-chave 

Bibliotecas de fragmentos: As bibliotecas de 
fragmentos são construídas a partir de 
estruturas tridimensionais determinadas 
experimentalmente, e são específicas para 
cada sequência alvo. Possuem tamanhos 
variados uma vez que os fragmentos de- 
vem apresentar alta similaridade local com 
a sequência alvo. 

Campos de força: Referem-se à forma e aos 
parâmetros (ajustáveis) de funções mate- 
máticas usadas para descrever a energia 
potencial de um sistema de partículas 
(moléculas e átomos). As funções e seus 
parâmetros são derivados de estudos ex- 
perimentais e de cálculos advindos da 
mecânica quântica, e que tentam descre- 
ver fenômenos atômicos como conforma- 
ção (e.g. diedros) e interações de curto e 
longo alcance de diferentes classes de 
moléculas. 

Decoy. São modelos gerados pelos diversos 
métodos de predição de estrutura tridi- 
mensional de proteínas. Uma vez que os 
métodos empregados são não determinís- 
ticos, cada execução pode resultar em um 
modelo diferente. Dentre os decoys, en- 
contra-se o modelo que melhor representa 
o que se supõe ser a estrutura nativa da 
sequência alvo, porém, para sua identifi- 
cação faz-se necessário realizar uma fil- 
tragem. 


Estrutura nativa: É a estrutura tridimensional 
adotada por uma proteína em seu ambi- 
ente fisiológico de ação. É a conformação 
que desempenha o papel biológico da 
proteína. 

Função de energia: Função pela qual se avalia o 
estado conformacional de uma proteína. A 
avaliação é feita baseada no valor de 
energia total do sistema em estudo, que 
pode ser composta de termos de energia 
potencial e cinética. O funcional é especí- 
fico para cada programa e seus termos 
são baseados em "Campos de Força". 

Metaheuristica: É um processo iterativo que oti- 
miza uma solução candidata segundo um 
critério de avaliação, geralmente baseada 
na minimização da "Função de Energia". É 
comum o uso de métodos de otimização 
não determinísticos, como por exemplo, 
algoritmos genéticos e simulated 

annealing. 

Modelagem comparativa: É uma classe de mé- 
todos de predição de estrutura tridimensi- 
onal de proteínas. A estrutura da 
sequência alvo é construída a partir de 
outras estruturas resolvidas experimen- 
talmente (estruturas molde) e que possu- 
em mais de 25% de identidade (ou ditas 
homólogas) em relação à sequência de 
aminoácidos da proteína alvo. 

Molde ou template : É a estrutura tridimensional 
de uma proteína determinada experimen- 
talmente e que é usada como base para 
fornecer informações estruturais aos al- 
goritmos de predição de estrutura de pro- 
teínas. Seu uso é dependente do nível de 
identidade/similaridade entre sua sequên- 
cia de aminoácidos e a da sequência alvo 
(sequência que se deseja modelar). 

Predição ab initio : É uma classe de métodos 
usada para prever a estrutura tridimensi- 
onal de uma proteína alvo sem o uso de 
informações estruturais de quaisquer ou- 
tras proteínas resolvidas experimental- 
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mente. 

Predição de estruturas de proteínas: É a arte de 
prever para uma sequência de aminoáci- 
dos, através de métodos computacionais, 
sua estrutura tridimensional mais próxima 
do que se supõe ser sua estrutura nativa. 

Predição de novo: É uma classe de métodos 
usada para prever a estrutura tridimensi- 
onal de uma proteína alvo, a partir de in- 
formações estruturais de proteínas 
resolvidas experimentalmente (estruturas 
molde) e sem qualquer parentesco com a 
proteína alvo. Usam, por exemplo, biblio- 
tecas de fragmentos. 

Rotâmeros: São as conformações preferenciais 
da cadeia lateral de um resíduo de ami- 
noácido. Podem ser combinados em bibli- 
otecas para cada tipo de aminoácido. 

Threading: É uma classe de métodos usada na 
predição de estrutura tridimensional de 
proteínas e que busca descobrir qual é o 
tipo de enovelamento mais provável que 
uma sequência alvo deverá adotar. Esse 
processo é baseado em estruturas resol- 
vidas experimentalmente (estruturas mol- 
de) que não são necessariamente 
homólogos à proteína alvo. 

7.14. Leitura recomendada 
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8. Dinâmica Molecular 




Flexibilidade da enzima trombina evidenciada através 
de simulação por dinâmica molecular. 

8.1. Introdução 

8.2. Campos de força 

8.B. Minimização de energia 

8.4. Simulações por DM 

8.5. Estratégias de análise 

8.6. Limitações atuais da DM 

8.7. E outras biomoléculas? 

8.8. Conceitos-chave 


8.1. Introdução 

Segundo a IUPAC ( InternationaL Union of 
Pure and Applied Chemistry), a “dinâmica mo- 
lecular á um procedimento de simulação que 
consiste na computação do movimento dos 
átomos em uma molécula ou de átomos indi- 
viduais ou moléculas em sólidos, líquidos e 
gases, de acordo com as leis de movimento 
de Newton”. Em outras palavras, a dinâmica 
molecular (DM) descreve a variação do com- 
portamento molecular como função do tem- 
po (Figura 1-8). 

Quando mencionamos “comportamento 
molecular”, nos referimos a quaisquer propri- 
edades de uma molécula em estudo, tais co- 
mo seu conteúdo de estrutura 2 ária , 
orientação de cadeias laterais, conformação 
de alças e a energia de interação entre dife- 


Hugo Verti 



Figura 1-8: Variação do conteúdo de estrutura 
secundária da melitina, peptídeo da abelha 
Apis mellifera, como função do tempo. A for- 
ma inicial é encontrada no ambiente cristali- 
no, enquanto a final é observada em 
condições próximas às plasmáticas. 

rentes moléculas (enzima e substrato, prote- 
ína e proteína, proteína e DNA ou fármaco e 
receptor). Por outro lado, a ideia de que estas 
propriedades variam como função do tempo 
indica que as mesmas não são estáticas, mas 
se modificam em soluções biológicas. Isto 
aproxima em muito a DM de métodos experi- 
mentais como a Ressonância Magnética Nu- 
clear (RMN, Capítulo 12), que geram medidas 
representando, de fato, médias temporais, 
colhidas durante a realização do experimento. 
Assim, ao final de uma simulação de DM, 
buscamos estas propriedades médias, 
representativas de comportamentos bio- 
lógicos medidos experimentalmente. 

A descrição conformacional oferecida 
pela DM, para uma determinada molécula ou 
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conjunto de moléculas, baseia- 
se na solução da 2 a Lei de New- 
ton, onde Fx t é a força aplicada 
ao átomo i na posição x, t é o 
tempo, v a velocidade e a. a 
aceleração do átomo i. Por ser 
baseada na física desenvolvida 
por Sir. Isaac Newton, a DM faz 
parte dos métodos denominados 
Clássicos (também chamados de 
métodos de mecânica molecu- 
lar), em oposição aos métodos 
baseados na física quântica (que 
deram origem aos denominados 
métodos de mecânica quântica). 





Sir Isaac Newton 


8.2. Campos de força 

Como visto no item ante- 
rior, para descrever a variação 
da posição x de um átomo i 
como função do tempo pre- 
cisamos conhecer o valor da 
massa de cada átomo, m i (essa 
é fácil, vem da tabela periódica) 
e a força ( Fx .) sobre cada átomo 
i em uma determinada posição 
x. A temperatura fornece ener- 
gia para que os átomos sofram 
uma aceleração, mudando suas 
posições no espaço. Contudo, 


Assim, a DM nos possibilita obter 
modelos de moléculas muito mais próximos 
da realidade biológica, pois inclui diretamente 
características como a flexibilidade molecular 
(através da variação temporal de 
propriedades) e a temperatura (através da 
aceleração dos átomos). A maioria dos 
fenômenos biológicos estão associados à 
flexibilidade de biomoléculas, como a catálise 
e a modulação de canais iônicos e de re- 
ceptores acoplados à proteína G. De fato, 
muitos destes processos vêm sendo 
descritos com sucesso por simulações de DM 
ao longo dos anos. 

Outros tipos de simulação estão 
disponíveis, tais como o Método de Monte 
Cario, a Dinâmica Estocástica e a Dinâmica 
Browniana. Iremos, contudo, nos ater à DM 
em decorrência de seu maior uso, nos últimos 
anos, no estudo de biomoléculas. 

Muitos programas (Tabela 1-8) estão 
disponíveis para a realização de simulações 
por DM diferindo, por exemplo, quanto a seu 
acesso (gratuito ou pago), custo 
computacional (isto é, tempo necessário para 
a execução de um mesmo cálculo) e tipos de 
campos de força disponíveis (ver adiante). 


Tabela 1-8: Alguns dos principais programas 
disponíveis para simulações por DM. 


Programa 

Distribuição 

Abalone 

Gratuito 

ADUN 

Gratuito 

AMBER 

Pago 

Ascalaph Designer 

Gratuito 

CHARMM 

Pago 

Discovery Studio 

Pago 

GROMACS 

Gratuito 

GROMOS 

Pago 

GULP 

Gratuito 

LAMMPS 

Gratuito 

MDynaMix 

Gratuito 

MOE 

Pago 

MOIL 

Gratuito 

MOLDY 

Gratuito 

NAMD 

Gratuito 

RedMD 

Gratuito 

TeraOuem 

Pago 

TINKER 

Gratuito 

YASARA 

Pago 
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como os átomos não estão isolados, mas li- 
gados a outros átomos formando moléculas 
que, por sua vez, interagem com outras mo- 
léculas, eles estão sujeitos a forças inter- 
atômicas e inter-moleculares. 0 cálculo 
destas forças é realizado por uma outra 
função matemática, denominada campo de 
força. 

0 campo de força, seguindo a definição 
da IUPAC, pode ser descrito brevemente 
como “um conjunto de funções e 
parametrização usadas em cálculos de 
mecânica molecular”. Cada campo de força 
estabelece um conjunto de equações 
matemáticas dedicadas a reproduzir aspectos 
do comportamento molecular, como o 
estiramento de ligações químicas, a 
deformação de um ângulo de ligação ou a 
torção de um diedro, como podemos 
observar em um espectro de infravermelho. 
Estas equações, por sua vez, são calibradas 
(ou seja, parametrizadas) para reproduzir o 
comportamento dos compostos de interesse 
(Figura 2-8). 

Equações e parametrizações diferentes 
podem ser empregadas, dando origem a 
campos de força diferentes, com vantagens e 


também limitações. Por exemplo, enquanto 
um tipo de campo de força pode descrever 
com elevada fidelidade proteínas, ele pode ser 
bastante limitado na reprodução da ge- 
ometria de carboidratos ou ácidos nucleicos. 
Desta forma, ao iniciarmos um estudo por 
DM, devemos ter em mente qual o tipo de 
molécula com o qual pretendemos trabalhar 
e qual o melhor campo de força para descre- 
vê-la. 

A escolha de um campo de força não é, contudo, 
baseada somente no tipo de molécula com o qual 
queremos lidar. Diversos outros aspectos podem 
influenciar esta escolha. Existem, por exemplo, 
diferentes níveis de simplificação na descrição dos 
átomos (Figura 3-8). 0 campo de força pode descrever 
todos os átomos do sistema (em inglês são 
denominados campos de força all atom). mas isto 
implica em um maior custo computacional, o que pode 
se tornar proibitivo no estudo de grandes sistemas 
moleculares se não temos acesso a grandes 
estruturas de processamento em paralelo (os 
chamados dusters). 

Como o elemento encontrado em maior quantidade 
é o átomo de hidrogênio, uma primeira simplificação é 
denominada de átomo unido (em inglês são 
denominados campos de força united atom). Neste 
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Figura 2-8: Representação de alguns termos que compõem o campo de força GR0M0S96. Ter- 
mos semelhantes são também encontrados em diversos outros campos de força. 
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Figura 3-8: Representação dos 20 aminoácidos, codificados no genoma para síntese proteica, 
em um campo de força descrevendo todos os átomos, em um campo de força de átomo unido e 
coarse-grained. 


caso, os átomos de hidrogênio apoiares, ou seja, 
aqueles Ligados a átomos de carbono, são unidos a 
este elemento, dando origem a um pseudoátomo 
representando as propriedades de grupos CH, CH 2 ou 
CH 3 . Exceção se dá para o grupo CH de anéis 
aromáticos, que tem os átomos de hidrogênio 
descritos explicitamente nos campos de força de 
átomo unido mais modernos, como o GR0M0S96. 

Há, por fim, um terceiro nível de simplificação, 
denominado coarse-grained (CG). Neste campo de 
força, vários átomos podem ser agregados em uma 
única partícula, análoga ao pseudoátomo do modelo de 
átomo unido. Por exemplo, todo um aminoácido pode 
ser considerado como uma única partícula, como é o 
caso da alanina e da glicina no campo de força 
MARTINI. Em outros resíduos, este campo de força 
considera o esqueleto peptídico como uma partícula e 
a cadeia lateral de uma (como na cisteína, treonina e 
serina) a três (histidina e fenilalanina) ou quatro 
(triptofano) partículas. 

Quanto maior a simplificação, menor custo 
computacional do cálculo. Em outras palavras, 
podemos simular sistemas com maior número de 
átomos por mais tempo em computadores mais 
baratos. Infelizmente, estas simplificações trazem 
consigo algumas limitações. No caso do CG, perde-se a 


capacidade de descrever elementos de estrutura 2 ária , 
mantendo-se somente a forma global da molécula em 
estudo. Assim, em estudos onde são esperadas 
mudanças no conteúdo de estrutura 2 árla o método de 
CG não é indicado. Mas, por ser muito rápido, pode 
descrever movimentos entre diferentes domínios de 
uma dada proteína, o que é difícil de ser observado, 
usualmente, nos demais campos de força. Por outro 
lado, o caso dos modelos de átomo unido traz 
limitações como a dificuldade em se utilizar estes 
campos de força na obtenção e refinamento de 
modelos 3 D de macromoléculas a partir de dados de 
RMN (Capítulo 12). 

Outra diferença entre os campos de 
força diz respeito à descrição das moléculas 
de água, o principal solvente de biomoléculas 
(Tabela 2-8). De fato, uma das grandes 
vantagens do método de DM é a capacidade 
de incluir a presença de moléculas de água 
nos modelos gerados, descrevendo as suas 
interações, como função do tempo, com os 
compostos em estudo. Da mesma forma que 
visto para os campos de força, existem 
diversos modelos para descrição de 
moléculas de água, por vezes com mais de 
uma opção para um mesmo campo de força. 
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Estes organizam-se em dois grandes grupos: 
os modelos explícitos e os implícitos. 

Tabela 2-8: Alguns dos modelos de água mais 
comumente empregados em simulações por 
DM a . 


Modelo 

Campos de força 
onde são emprega- 
dos 

SPC 

AMBER, GROMOS, 

SPC/E 

OPLS 

TIP3P 


TIP4P 



TIP5P 


AMBER, CHARMM, 
OPLS 




MARTINI 


Martini 



a Uma revisão mais completa pode ser encontrada no 
site: wwwl.lsbu.ac.uk/water/models.html 


Enquanto os modelos explícitos incluem os átomos 
da molécula de água, fisicamente, na simulação, os 
modelos implícitos (também chamados de modelos 
contínuos ou continuum modeis) não incluem estas 
moléculas diretamente, mas indiretamente, através da 
representação das propriedades dielétricas do 
solvente. Os átomos que compõem a água não 
participam das simulações, tornando o cálculo 
extremamente rápido (usualmente, a grande maioria 
dos átomos em um sistema a ser simulado por DM se 
refere ao solvente). Infelizmente, enquanto estes 
modelos implícitos são bastante eficientes no estudo 
de proteínas e ácidos nucleicos, o mesmo não vem se 
mostrando para carboidratos, compostos altamente 
polares que interagem intensamente com o solvente. 

Embora os principais campos de força 
empregados atualmente (AMBER, CHARMM, 
OPLS e GROMOS) sejam compostos por 
equações bastante semelhantes (ver a 


seguir), cada um foi construído a partir de 
decisões metodológicas distintas apre- 
sentando, portanto, particularidades im- 
portantes. Como consequência, normalmente 
os parâmetros de um campo de força não 
são transferíveis para outro campo de força. 

A importância de conhecermos estas 
características, reconhecendo cada campo de 
força como entidade única, reside no fato de 
que um grande número de compostos de 
interesse biológico não é descrito nos 
parâmetros atuais, o que pode limitar o seu 
estudo computacional. Dentre estes 
compostos com carências de parâmetros 
podemos citar aminoácidos modificados 
(alem dos 20 codificados no genoma), 
neurotransmissores, hormônios, fos- 
folipídeos, carboidratos, produtos naturais e, 
por fim, fármacos. Como simulações por DM 
podem ser cálculos extremamente de- 
morados, deixar para descobrir no meio do 
trabalho que seu modulador de interesse não 
tem parâmetros no campo de força escolhido 
pode lhe custar alguns meses de trabalho. 

Em linhas gerais, tanto a distância entre 2 átomos 
ligados quanto o ângulo entre 3 átomos consecutivos é 
descrita a partir de V Hgação/ângulo = K n [n- n a ]\ onde V é a 
energia, n é a distância ou ângulo em um dado 
momento, n a é a distância ou ângulo de referência *K n 
é a constante de força da mola que mantém esses 
valores ao redor dos valores de referência (Figura 2- 
8 ). 

Para diedros, a função mais usualmente empregada 
é baseada em V dieiro = K x [1 + cos(n x - < 5 >], sendo V a 
energia, o valor do diedro eia altura da barreira de 
energia entre diferentes estados conformacionais. 
Estes estados surgem porque um diedro pode rodar 
360° e, ao longo desta rotação, apresentar múltiplos 
mínimos de energia. Assim não há, necessariamente, 
uma única geometria de referência. 0 perfil rotacional 
dos diedros tem a adição do parâmetro n, que 
descreve a multiplicidade do diedro (ou seja, o número 
de mínimos de energia) e 3, que diz respeito à mudança 
de fase e à localização do máximo de energia ao longo 
do perfil da rotação do diedro. 

Apesar da semelhança nesses termos, existem 
diferenças importantes que devem ser consideradas. 0 
CHARMM, por exemplo, emprega uma equação 
adicional na descrição dos ângulos de ligação, chamada 
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Urey-Bradley, que busca preservar a distância entre o 
primeiro e o terceiro átomos de um ângulo. Outra 
diferença se refere aos termos que descrevem a 
planaridade ou quiralidade em um conjunto de quatro 
átomos, o que é usualmente chamado de diedro 
impróprio (Figura 2-8). Enquanto AMBER e OPLS os 
descrevem da mesma forma que os demais diedros 
(também chamados de diedros próprios), CHARMM e 
GROMOS aplicam uma equação diferente, que se 
assemelha àquela empregada para distâncias e 
ângulos. 

Abordar com profundidade a 
construção de parâmetros para campos de 
força está além do objetivo deste livro. Mas 
em muitos casos há uma solução um pouco 
mais simples para o problema. Uma 
característica importante de campos de força 
é a chamada transferabilidade. Isto significa 
que grupos químicos semelhantes possuem 
propriedades semelhantes que podem, assim, 
serem transferidas de uma molécula para 
outra. Por exemplo, o grupo hidroxila de um 
resíduo de Ser é equivalente ao grupo 
hidroxila de um resíduo de Thr. Assim, há uma 
redução enorme na necessidade de 
construção de parâmetros para novos 
compostos, se respeitarmos a semelhança 
química entre eles. 

8.3. Minimização de energia 


Quando iniciamos um estudo baseado 
em simulações por DM, podemos empregar 
estruturas de partida de diferentes origens, 
como modelos teóricos (ver capítulo 7) ou 
ainda dados experimentais de cristalografia 



Figura 4-8: Explosão em uma simulação por DM. 


de raios-X (ver capítulo 13) ou de RMN (ver 
capítulo 12). Independente de sua origem 
estas estruturas, ao serem solvatadas, criam 
interações soluto-solvente até então 
inexistentes (seja pelo dado ser teórico obtido 
no vácuo, em ambiente cristalino ou como 
uma média de diferentes conformações). Mas 
o solvente precisa se adaptar ao redor de seu 
soluto, e isto precisa ser corrigido antes que a 
simulação por DM se inicie. Por exemplo, 
quando o programa insere uma molécula de 
água, esta pode ter seu hidrogênio apontando 
para um átomo de hidrogênio da cadeia 
lateral de uma arginina, promovendo uma 
repulsão eletrostática pela proximidade de 
duas cargas de sinais iguais. Se isto não for 
corrigido antes do início da DM, a liberação 
desta energia na simulação pode gerar uma 
explosão da simulação (Figura 4-8) ou, de 
forma mais sutil (mas nem por isso menos 
perigosa para o estudo), promover mudanças 
conformacionais na proteína, ou mesmo 
desnaturações. Em outros casos, como na 
obtenção de modelos teóricos para a 
estrutura 3D de proteínas, a construção de 
cadeias laterais de aminoácidos pode 
aproximá-las artificialmente (e exces- 
sivamente) de outros resíduos. 

Assim, uma das principais formas de 
tentar eliminar estes problemas reside no 
cálculo de minimização de energia (Figura 5- 
8). Durante este cálculo, a energia global do 
sistema é reduzida, alcançando por fim uma 
conformação mais estável para o sistema em 
estudo (ou seja, um estado de mínimo de 
energia). 
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Figura 5-8: Exemplo da evolução de proprie- 
dades moleculares no decorrer de uma mini- 
mização de energia. A cada passo, a energia 
do sistema diminui, com a redução de conta- 
tos desfavoráveis e a formação de interações 
intra- e inter-moleculares como ligações de 
hidrogênio. 

8.4. Simulações por DM 

Além da escolha do campo de força e 
do modelo de água, o preparo e a análise de 
uma simulação por DM deve considerar al- 
guns aspectos metodológicos importantes, 
dentre os quais destacaremos as condições 
periódicas de contorno, a equilibração, a 
amostragem, o tempo de integração e o cál- 
culo de interações não ligadas. Uma escolha 
inadequada destas propriedades pode signifi- 
car desde um maior custo computacional (is- 
to é, uma simulação demorando mais do que 
precisaria) a resultados que não representam 
situações reais. 

Condições periódicas de contorno 

Quanto maior o número de moléculas 


incluídas em uma simulação, maior será o 
tempo necessário para realizar o cálculo. Por 
isso, buscamos sempre incluir o menor 
número de moléculas possível capaz de 
descrever as condições experimentais ou 
fisiológicas de referência. No caso da 
proteína, estamos na maioria das vezes ainda 
limitados a simulação de uma única molécula 
(salvo no caso de oligômeros). Contudo, a 
proteína não costuma ser a parte mais cara 
computacionalmente do cálculo, mas sim a 
inclusão do solvente (explícito). Uma 
otimização no número de moléculas de água 
pode representar uma grande otimização no 
tempo de máquina para conclusão da 
simulação (o que permite aumentar o 
tamanho da amostragem do estudo, ver 
adiante). 

Uma forma de controlar o número de 
moléculas de água é controlando o tipo de 
"caixa" onde o sistema será simulado. Por 
caixa entendemos o espaço tridimensional 
onde soluto (biomolécula) e solvente 
(normalmente água) são colocados. 0 
tamanho e a forma desta caixa, usualmente 
centralizada no soluto, definirá a quantidade 
de solvente a ser inserida. 

Atualmente, não é comum definir a forma da caixa 
como uma esfera, por motivos que explicaremos a 
seguir. As formas mais comuns são cúbica, octaédrica 
e dodecaádrica. A forma de um octaedro apresenta 
77% do volume de um cubo, enquanto que o 
dodecaedro 71%, representando a forma mais próxima 
de uma esfera. Contudo, como a forma de proteínas e 
outras biomoléculas varia muito, devemos avaliar qual 
caixa se adequa melhor ao sistema em estudo. Por 
exemplo, a simulação de membranas á normalmente 
realizada em um cubo ou uma forma retangular, que 
pode ser uma boa alternativa também para proteínas 
em forma de bastão. 

0 uso de uma caixa em forma de esfera ao redor da 
proteína de interesse nos levaria a um aproveitamento 
do espaço tridimensional melhor do que o dodecaedro, 
economizando mais moléculas de água e, assim, 
liberando custo computacional. Contudo, as moléculas 
em uma simulação por DM podem se difundir ao longo 
da caixa. Como além da caixa de simulação temos 
condições de vácuo, o solvente iria progressivamente 
evaporar, a partir da face da esfera. A forma de 
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impedir isso é criar uma força que impeça as 
moléculas do sistema de ultrapassarem os limites 
desta esfera, o que representa a inclusão de forças 
artificiais, não observáveis em condições biológicas. 

As formas geométricas empregadas 
mais frequentemente em em simulações por 
DM estão relacionadas a uma estratégia 
denominada condições periódicas de contorno 
(Figura 6-8). Estas formas permitem que 
uma caixa de simulação seja replicada em 
todas as suas dimensões, de forma periódica. 
Estas réplicas são idênticas à caixa 
construída, de forma que um movimento 
molecular em uma será idêntico ao 
movimento da mesma molécula na outra. 
Mas, agora, a face da caixa não está em con- 
tato com o vácuo, mas com solvente. E, caso 
uma molécula saia da caixa central, uma de 
suas imagens entrará pela face oposta, 
mantendo o número de moléculas constante. 
Isto representa uma continuidade da solução, 
nos aproximando de condições experimentais. 


7 

, , ' 

\ / 

1 

7 


oO a 9 
j qT o 

o J° ° 

<r ° 

~(5q 

«-► o 


< 

s z 

) 

Oq 

m 

oO 9 9 
T o 

oo 

9 

© 

oq 

®— ► % 


z s 

< 

Oo 

»- o 

oO® 9 

o 0 

Qq 

• 

9 

Oq 

•-O 
oO® j 

3 

Z t 


! * 


Figura 6-8: Representação das condições pe- 
riódicas de contorno em uma simulação por 
DM. Somente a caixa central é simulada, en- 
quanto que as réplicas garantem a continui- 
dade do sistema, isto é, ausência de contato 
das moléculas com o vácuo. 

Devemos, contudo, tomar cuidado para não definir 
uma caixa excessivamente pequena, buscando 


economizar custo computacional ao reduzir a 
quantidade de solvente excessivamente. Se a caixa for 
pequena demais, a proteína pode interagir com suas 
imagens, geradas pelas condições periódicas de 
contorno, criando uma situação artificial que 
provavelmente irá deturpar os resultados obtidos. É 
importante, assim, avaliar se o corte das interações 
não ligadas (ver adiante) é menor que a distância da 
proteína às suas imagens. 

Equilibração 

A ideia de equilibração de uma 
simulação por DM se refere à estabilização de 
suas propriedades, ou seja, que estas alcan- 
cem um estado de equilíbrio. Considera-se 
que, antes de estarem equilibradas, as 
propriedades em estudo apresentam 
variações ou comportamentos não 
representativos das situações de interesse. 
Assim, é necessário que o tempo de 
simulação seja suficientemente longo (tama- 
nho da amostragem, ver adiante) para que as 
propriedades em estudo estejam ade- 
quadamente equilibradas. Na Figura 1-8, por 
exemplo, a simulação de um monômero de 
melitina demora em torno de 4 ns para se 
equilibrar. 

Um dos motivos mais comuns para a necessidade 
de equilibração é devido ao uso de estruturas 3D 
derivadas de ambientes cristalinos, isto á, aquelas 
obtidas por cristalografia de raios-X. Este ambiente 
apresenta concentração de proteínas muito maior do 
que aquela observada, usualmente, nas condições bio- 
lógicas de interesse, por vezes em estados 
oligoméricos não observados em condições bio- 
lógicas. Assim, a remoção destes contatos e sua 
substituição por moléculas de água, acarretará em 
uma instabilidade inicial na simulação, envolvendo: 1) a 
perda de contatos cristalográficos, e 2) a formação de 
interações com moléculas de água. 

Infelizmente, a busca por tempos de simulação 
"suficientemente longos" para equilibração das 
propriedades de interesse pode ser desafiadora, pois 
nem todas as propriedades moleculares equilibram a 
uma mesma velocidade. Por exemplo, a interação de 
uma proteína com o solvente equilibra usualmente 
mais rapidamente do que a perda ou a formação de 
estrutura 2 ária . Estas, por sua vez, equilibram mais 
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rapidamente que o movimento de domínios em uma 
dada proteína. 

Amostragem 

A amostragem de uma simulação por 
DM se refere a quão bem ela é capaz de des- 
crever o comportamento do sistema molecu- 
lar em estudo. Idealmente, a amostragem de 
uma simulação deve ser longa o bastante pa- 
ra descrever os fenômenos de interesse. 
Contudo, a simulação de sistemas complexos 
como aqueles envolvendo biomoláculas fre- 
quentemente esbarra em amostragens ainda 
inalcançáveis em decorrência de seu elevado 
custo computacional. 

A maneira mais simples de se entender a amostra- 
gem é considerando o tamanho da simulação em uma 
escala de tempo. Um maior tempo de simulação impli- 
ca em uma maior amostragem. Contudo, diversos as- 
pectos podem interferir neste entendimento. 0 
aumento do número de moléculas e átomos no siste- 
ma aumenta o número de possíveis conformações a 
serem adotadas. Por outro lado, o uso de campos de 
força do tipo átomo unido ou ainda coarse-grained, 
ao reduzir o número de átomos, reduz o número de 
possíveis estados conformacionais a serem adotados 
pelo sistema, tornando assim a amostragem maior em 
uma mesma escala de tempo. 

Tempo de integração 

0 cálculo de uma simulação por DM não 
gera informações contínuas, mas sim é dividi- 
da em pequenos passos, usualmente na es- 
cala de femtossegundos (fs). A sucessão 
destes passos dará origem ao nosso entendi- 
mento de trajetória, isto é, à evolução tem- 
poral do comportamento molecular na 
simulação realizada. 0 tamanho destas partes 
é o que chamamos de tempo de integração 
(Figura 7-8). 

A definição de um valor apropriado para 
o tempo de integração está diretamente rela- 
cionada ao tamanho da amostragem da si- 
mulação e, por conseguinte, ao custo 
computacional da mesma. Conforme ilustra- 
do na Figura 7-8, a descrição de uma deter- 
minada propriedade tempo-tempendente 
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Figura 7-8: Representação do efeito de dife- 
rentes tempos de integração na amostragem 
de uma simulação por DM. Valores muito pe- 
quenos (0,5fs) descrevem fenômenos com 
maiores detalhes, mas mais lentamente. Va- 
lores muito grandes (4,0fs) apresentam me- 
nores custos computacionais, mas podem dar 
origem a instabilidades. 



pode ser feita empregando-se diferentes va- 
lores de tempo de integração. Quanto maior 
este valor, menos passos de cálculo serão 
necessários à descrição do fenômeno e, por 
conseguinte, menor será o custo computaci- 
onal associado. Quanto menor este valor, 
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mais passos serão necessários e, assim, mai- 
or o custo computacional. Infelizmente, o uso 
de tempos de integração muito elevados pode 
gerar instabilidades na trajetória, de forma 
que valores intermediários são usualmente 
empregados, no caso da Figura 7-8, 2fs. 

Os valores de tempo de integração mais frequente- 
mente empregados em simulações baseadas em cam- 
pos de força atomísticos (isto é, todos os átomos são 
descritos) ou de átomo unido são Ifs, 2fs ou 5fs. 0 uso 
de Ifs é realizado quando as moléculas e suas ligações 
são tratadas como flexíveis durante a simulação, en- 
quanto 2fs requerem o tratamento das ligações quími- 
cas como rígidas. Já para o uso de 5fs, toda a molécula 
é tratada como rígida (ou seja, ângulos e diedros não 
podem ser modificados), uma alternativa pouco utili- 
zada no estudo de sistemas biológicos. Em algumas si- 
tuações podem ser empregados tempos de integração 
menores que Ifs, mantida toda a flexiblidade da molé- 
cula. Em outros casos, como em simulações do tipo 
coarse-grained , tempos de integração de até 40fs. 

Cálculo de interações não ligadas 

Uma das partes mais custosas compu- 
tacionalmente em simulações por DM envolve 
o cálculo das interações não ligadas, isto é, 
interações eletrostáticas (calculadas por ter- 
mos de Coulomb) e de van der Waals (calcu- 
ladas pelo potencial de Lennard-Jones). Para 
se ter uma ideia, enquanto o número de ter- 
mos ligados (isto é, ligações, ângulos e die- 
dros) é proporcional ao número de átomos, o 
número de interações não ligadas aumenta 
como função do quadrado do número de áto- 
mos do sistema. Assim, economizar custo 
computacional no cálculo destas interações 
representa uma significativa redução no custo 
da simulação como um todo. Como estas in- 
terações decrescem rapidamente em intensi- 
dade conforme dois átomos se distanciam no 
espaço, é possível realizar cortes nestas inte- 
rações ( cut-off ). Em outras palavras, a partir 
da distância definida por estes cortes, nenhu- 
ma interação não ligada será calculada (Figu- 
ra 8-8). 

Por exemplo, consideremos dois possíveis raios de 
corte na simulação do soluto apresentado na Figura 8- 
8. 0 uso do raio a representaria um menor custo com- 


putacional, tendo em vista que nenhuma interação de 
Coulomb seria avaliada a partir desta distância. Já o uso 
do corte b traria um maior custo computacional, in- 
cluindo as interações entre o soluto e as moléculas na 
faixa cinza da figura. Contudo, ao reduzir o custo com- 
putacional, o corte a potencialmente implicará na per- 
da de informações importantes, por ser muito próximo 
do soluto. Assim, a distância b seria preferível. 



Figura 8-8: Representação de regiões de cor- 
te, a e b, a partir de um soluto, para cálculo 
de interações não ligadas. 

A eliminação repentina da avaliação das interações 
não ligadas através de um cut-off pode gerar instabili- 
dades ou erros na amostragem da simulação. Desta 
forma, estas interações a longas distâncias costumam 
ser descritas por outros tipos de métodos, como PME, 
Ewald ou Campo de Reação ( Reaction-Field ), dentre 
outros. Este tratamento é usualmente aplicado so- 
mente às interações de Coulomb, mais sensíveis a efei- 
tos originados de cortes nas interações. 

8.5. Estratégias de análise 

Um dos maiores desafios em um estudo 
baseado em DM frequentemente reside mais 
na análise e interpretação dos resultados ob- 
tidos do que no preparo do sistema. De fato, 
simulações de proteínas em água podem ge- 
rar facilmente muitas dezenas de gigabytes 
de dados. Como retirar informações destas 
trajetórias, quais informações retirar e como 
interpretar estas informações, no contexto do 


182 


8. Dinâmica Molecular 



assunto em estudo, envolvem muitas vezes 
mais tempo do que a simulação computacio- 
nal em si. 

Os tipos de análises a serem emprega- 
das estarão intrinsecamente relacionados à 
natureza do problema em estudo. Por 
exemplo, se estamos estudando uma proteína 
tentando mimetizar o ambiente nativo da 
mesma, em princípio, ela não pode se desna- 
turar durante a simulação. Por outro lado, o 
estudo de membranas elimina esta preocu- 
pação mas nos traz a necessidade de avaliar 
as propriedades dos lipídeos enquanto imer- 
sos num fluido. Adicionalmente, dados prévi- 
os sobre características estruturais e/ou 
funcionais das moléculas em estudo, obtidos 
tanto por métodos computacionais quanto 
por outras ferramentas experimentais são 
fundamentais na concepção, preparo, execu- 
ção e análise de estudos por DM. Esta é, fun- 
damentalmente, a razão pela qual este livro 
traz em si diversos métodos experimentais. 

Neste momento, a adequação da amos- 
tragem às propriedades em estudo assume 
importância fundamental. Se buscamos estu- 
dar o movimento de domínios de uma proteí- 
na, simulações de dezenas de nanossegundos 
não serão suficientes, requerendo potencial- 
mente tempos próximos de microssegundos, 
possivelmente inviabilizando o estudo por DM. 
De forma semelhante, a observação do eno- 
velamento de proteínas por DM é impraticável 
na grande maioria dos casos, salvo em pe- 
quenas proteínas ou peptídeos, de qualquer 
forma, requerendo no mínimo centenas de 
nanossegundos. Por outro lado, reorientação 
ou refinamento de cadeias laderais de resídu- 
os de aminoácidos ou de ligantes em comple- 
xos fármaco-receptor podem ser observados 
frequentemente em algumas dezenas de na- 
nossegundos. 

As análises de simulações por DM de- 
vem, preferencialmente, ser realizadas ob- 
servando propriedades de complexidade 
crescente (o que costuma estar associado ao 
tempo requerido à equilibração desta propri- 
edade). Assim, as primeiras propriedades a 
serem avaliadas são normalmente a pressão 
(no caso de simulações NPT, mais comuns em 


sistemas biológicos), o volume (no caso de 
simulações NVT), a densidade e a energia to- 
tal do sistema. Todas estas propriedades de- 
vem alcançar um patamar estável, paralelo 
ao eixo x (tempo). Pode-se observar alguma 
variação no início da simulação mas, em se- 
guida, devem atingir este patamar e se man- 
ter neste nível ao longo da simulação. Estas 
costumam ser propriedades de rápida equili- 
bração em simulações por DM. 

Garantidas estas propriedades, pode- 
mos passar à análise de aspectos mais com- 
plexos, como do comportamento da estrutura 
proteica ao longo da simulação. Neste grupo, 
as ferramentas mais comumente emprega- 
das incluem o RMSD, o RM5F, o raio de giro, 
distâncias entre átomos ou grupamentos e a 
evolução do conteúdo de estrutura 2 ária como 
função do tempo. 

0 RMSD (do inglês root mean square deviation ou 
desvio quadrático médio) á uma das principais estraté- 
gias de análise empregadas no estudo por DM de pro- 
teínas (Figura 9-8A). Indica o quanto a estrutura da 
proteína de interesse se modifica ao longo de uma si- 
mulação, em relação à estrutura de partida, normal- 
mente cristalográfica. Assim, é usual que haja um 
aumento progressivo no RMSD de uma proteína, par- 
tindo de 0, até um patamar, o que pode indicar a equili- 
bração do sistema. Este patamar pode variar em 
função das características da proteína mas, como um 
ponto de partida, podemos considerar um valor em 
torno de 3 Á quando todos os átomos do sistema são 
empregados na medida. Valores acima deste podem 
sugerir movimentos maiores de alças, em relação ao 
cristal, ou perda de estrutura 2 ária , enquanto valores 
menores tendem a indicar sistemas mais semelhantes 
à referência cristalográfica. 

Uma consideração importante quando realizamos 
análises de RMSD se refere ao fato de que esta análise 
oferece uma medida média de um conjunto de átomos, 
selecionados para a análise. Se todos os átomos de 
uma proteína são considerados, como no exemplo aci- 
ma, os valores observados trazem consido influências 
de diferentes regiões da proteína. Por exemplo, nor- 
malmente conjuntos de hélices a se modificam menos 
durante uma simulação do que regiões de alças. Caso 
façamos uma análise de RMSD separada para estas 
regiões, veremos hélices a com valores menores e al- 
ças com valores maiores do que aqueles considerando 
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Figura 9-8: A) Helipticidade (vermelho) e 
RM5D, e B) RMSF para a melitina. O RM5D foi 
calculado para toda a proteína (azul) e para o 
esqueleto peptídico (verde). Já o RM5F foi 
medido como média para toda a trajetória 
(preto), para os primeiros 3 ns (roxo) e para 
os últimos 5 ns (laranja). 

ambas regiões juntas. Processo similar ocorre caso 
consideremos todos os átomos do sistema (maior 
RM8D) ou simplesmente o esqueleto peptídico (menor 
RM9D) (Figura 9-8A). 

Na análise por RMSD, todo resultado obtido irá de- 
pender da geometria de partida da simulação, usual- 
mente cristalográfica. 0 RMSF (do inglês root meon 
square fluctuotion ou flutuação quadrática média), em 
contrapartida, não apresenta esta dependência, mas 
descreve a variação da posição dos átomos (ou resídu- 
os de aminoácidos) durante a simulação, indicando a 


flexibilidade do sistema (Figura 9-8B). Valores maiores 
de RMSF serão, portanto, usualmente observados para 
alças, e valores menores para hélices a. Por outro lado, 
regiões de hélices a apresentando valores elevados de 
RMSF podem estar passando, durante a simulação, por 
perda de sua estrutura 2 ária . 

Enquanto o RMSD apresenta um valor médio, a cada 
passo da simulação, para todos os átomos do sistema, 
o RMSF apresenta um valor médio, para cada átomo ou 
resíduo (usualmente mais útil para proteínas), ao longo 
de todos os passos da simulação. Assim, valores de 
RMSF para toda a trajetória podem diferir, por 
exemplo, daqueles observados no início e/ou no final 
da simulação (Figura 9-8B). 

Ainda, ao observarmos o quanto uma 
proteína muda sua forma 3D em relação ao 
cristal ou a flexibilidade de cada resíduo ao 
longo da simulação, não temos informações 
diretas sobre o comportamento dos elemen- 
tos de estrutura 2 ária da proteína. Um valor de 
RMSD elevado pode tanto sugerir a desnatu- 
ração de uma hélice quanto uma reorientação 
da mesma que, contudo, pode se manter 
enovelada. Da mesma maneira, um resíduo 
muito flexível (conforme observado pelo 
RMSF) não necessariamente será encontrado 
somente em alças. Para tal, devemos empre- 
gar análises específicas capazes de indicar 
como a estrutura 2 ária da proteína se com- 
porta na simulação por DM. 

Conforme observado no Capítulo 2, a definição da 
estutura 2 árla não é algo tão simples e direto como 
possa parecer. Existe mais de uma forma de definir hé- 
lices e folhas, e diferentes estratégias podem oferecer 
resultados distintos. Por exemplo, o programa D55P 
descreve a estrutura 2 aria a partir do padrão de liga- 
ções de hidrogênio na sequência polipeptídica. À infor- 
mação relacionada a interações por ligação de 
hidrogênio o programa 5TRIDE adiciona parâmetros 
torsionais relacionados ao esqueleto peptídico. 

Outro aspecto importante quanto à análise do 
comportamento da estrutura 2 aria diz respeito à escala 
de tempo na qual hélices e fitas se enovelam. Enquanto 
hélices usualmente se enovelam numa escala de 
tempo de centenas de nanossegundos, simulações de 
poucas dezenas de nanossegundos terão dificuldades 
em prever estes fenômenos. 0 caso de fitas é ainda 
mais complexo, exigindo escalas de tempo uma ordem 
de grandeza superiores. 
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Uso de estatístico 

Embora seja prática corriqueira, mesmo obrigató- 
ria, na grande maioria dos métodos experimentais em- 
pregados no estudo de sistemas biológios, o uso de 
métodos estatísticos não é, ainda, comum na análise de 
resultados obtidos em simulações por DM. Isto se deve 
ao fato de que, em uma mesma simulação, são nor- 
malmente gerados centenas de milhares ou mesmo 
milhões de dados para uma mesma variável (tamanho 
da simulação dividido pelo tempo de integração). 0 
grande n assim obtido tenderá a tornar estatistica- 
mente significativa mesmo variações bem pequenas 
nas propriedades de interesse. 

Com a redução no custo dos computadores e au- 
mento em sua velocidade, assim como na melhoria dos 
programas disponíveis, uma nova abordagem vem se 
apresentando, aproximando a análise de simulações 
por DM de estudos experimentais convencionais. Tra- 
ta-se da realização de múltiplas simulações para um 
mesmo sistema. Assim, a informação a ser empregada 
nas análises é a média da informação gerada nas di- 
versas simulações. 

8.6. Limitações atuais da DM 

Como toda técnica experimental, 
simulações por DM possuem limitações 
importantes que devem ser conhecidas pelos 
seus usuários de forma a reduzir a chance de 
interpretações equivocadas dos resultados 
obtidos. 

Uma consequência direta da realização 
de cálculos baseados na mecânica molecular, 
ou seja, empregando campos de força, é a 
ausência de elétrons. Este tipo de cálculo não 
considera os elétrons e, por conseguinte, os 
resultados obtidos apresentam limitações em 
lidar com fenômenos envolvendo elétrons 
diretamente. Assim, simulações por DM não 
são capazes, por exemplo, de descrever 
reações químicas, como as observadas na 
ação de enzimas ou em processos de 
oxidação e redução. Uma alternativa recente 
para esta limitação envolve métodos 
denominados híbridos entre a mecânica 
molecular e a mecânica quântica. 

Simulações por DM apresentam grande 
dificuldade em descrever a energia livre de 


Gibbs associada a eventos moleculares. 
Portanto, informações sobre constantes de 
equilíbrio, constantes catalíticas ou afinidades 
entre moléculas não são usualmente 
acessíveis, com precisão, através destas 
técnicas. Embora diversas técnicas gerem 
estimativas de energia livre associadas à DM, 
como a perturbação da energia livre, o linear 
interaction energy e a metadinâmica, cada 
uma possui suas próprias limitações, di- 
ficultando seu uso amplo em estudos por DM. 

Por fim, e não menos importante, temos 
a dificuldade em obter amostragens 
compatíveis com fenômenos observáveis em 
experimentos ou fisiologicamente. Mesmo 
nos maiores centros de supercomputação do 
mundo, ainda não chegamos, na grande 
maioria dos casos, em escalas de tempo 
compatíveis com o comportamento de 
proteínas em soluções biológicas. Por isso, 
devemos ter em mente que os resultados 
obtidos, por mais confiáveis e corretos que 
sejam, não necessariamente representam, 
estatisticamente, fenômenos medidos em 
solução. 

8.7. E outras biomoléculas? 

A maior parte da literatura, seja em li- 
vros seja em artigos, se refere ao estudo de 
proteínas. Ácidos nucleicos, membranas e 
carboidratos vêm sendo estudados com me- 
nos frequência, comparativamente, ao longo 
dos anos. Embora possa se justificar esta di- 
ferença em decorrência do fato de que as 
proteínas são as moléculas efetoras da infor- 
mação genética, esta não é a única justificati- 
va, tampouco proteínas são os únicos 
compostos biológicos importantes para a 
manutenção da vida. 

0 estudo de moléculas de DNA, por 
exemplo, vem ganhando importância com o 
desenvolvimento de compostos capazes de 
interagir, seletivamente, com regiões especí- 
ficas do DNA, como é o caso dos agentes an- 
tineoplásicos. Enquanto moléculas de DNA 
apresentam estruturas mais ou menos bem 
definidas, moléculas de RNA são extrema- 
mente versáteis e complexas conformacio- 
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nalmente, a cada momento se mostrando co- 
mo capazes de atuarem em mais fenômenos 
biológicos. Valorização semelhante vem sen- 
do observada para membranas e carboidra- 
tos que, progressivamente, deixam de ter 
papéis passivos, simplesmente estruturais, 
passando a desempenhar papéis ativos, sina- 
lizando diretamente múltiplas respostas em 
organismos. 

Assim, a construção de modelos computacionais 
para o estudo de biomoláculas deve incluir o máximo 
de propriedades importantes ao desenvolvimento nor- 
mal de suas funções, em condições nativas. Uma pro- 
teína inserida em membrana irá exigir a inclusão da 
membrana nas simulações, da mesma maneira que 
uma glicoproteína irá demandar a inclusão da parte sa- 
carídica em seu estudo. 

Do ponto de vista da disponibilidade de 
parâmetros de campos de força, diferentes 
classes de biomoléculas apresentam diferen- 
tes disponibilidades de parâmetros. Por isso, 
é importante considerar todos os componen- 
tes do sistema molecular quando da escolha 
do campo de força a ser empregado. Se a 
nossa molécula em estudo é uma glicoproteí- 
na, não adianta empregar um campo de força 
excelente para carboidratos se o mesmo não 
possui parâmetros para o estudo de proteí- 
nas. 

Atualmente, os principais campos de força são 
capazes de descrever a grande maioria das classes de 
biomoléculas. Originalmente, no entanto, o campo de 
força AMBER foi desenvolvido para o estudo de ácidos 
nucleicos e proteínas, o CHARMM para proteínas, o 
GROMOS para lipídeos e o OPLS para líquidos e 
solventes. Com o passar do tempo, cada um desses 
parâmetros foi sendo aprimorado focando em 
diferentes biomoléculas, de forma que, hoje, alguns 
são empregados com maior freqüência para 
determinados sistemas por melhor descreverem suas 
propriedades (estruturais, conformacionais ou físico- 
químicas). 

No caso específico de proteínas, os campos de 
força citados acima descrevem de forma semelhante 
sua estrutura, conformação e dinâmica. No caso de 
lipídeos, a maior parte dos estudos envolve os campos 
de força CHARMM e GROMOS, embora o último ofereça 
um ganho de velocidade de até nove vezes devido a sua 
natureza de átomo unido. 


Para ácidos nucleicos, os campos de força mais 
amplamente utilizados são o AMBER e o CHARMM, 
tanto para DNA quanto para RNA. 

A parametrização de carboidratos, por sua vez, 
está imersa em desafios devido à sua elevada 
complexidade estrutural e conformacional, de forma 
que uma sucessão de novos parâmetros vêm sendo 
desenvolvida. 

Por fim, o grupo de compostos mais 
desafiadores com relação à disponibilidade 
prévia de parâmetros envolve os fármacos ou 
moduladores da função proteica que não es- 
tão sob uso terapêutico (genericamente cha- 
mados de ligantes). Em decorrência de sua 
variedade e originalidade química, é extrema- 
mente difícil ter, de antemão, parâmetros 
próprios à sua descrição. Assim, é frequente a 
necessidade de parametrização dos ligantes 
em estudo, seguindo as características do 
campo de força em uso. 

Embora os quatro campos de força citados 
possuam parâmetros para um amplo espectro de 
grupamentos funcionais, para casos específicos 
ferramentas como o servidor PRODRG (para o 
GROMOS) e o GAFE (para o AMBER) são capazes de 
gerar parâmetros, com graus variados de precisão, que 
podem ser empregados no estudo de compostos 
orgânicos em geral. 

8.8. Conceitos-chave 

Amostragem: refere-se à descrição do compor- 
tamento conformacional de uma dada 
molécula em uma simulação. 

Campo de força: conjunto de equações que 
descreve o comportamento molecular em 
cálculos de mecânica molecular. É ajusta- 
do para cada tipo de molécula a ser estu- 
dado. 

Campo de força all atom (todos os átomos): 
considera todos os átomos do sistema ex- 
plicitamente. 

Campo de força united atom (átomo unido): 
transforma grupos CH, CH 2 e CH 3 em uma 
única partícula ou pseudoátomo, reduzin- 
do o número de átomos a ser descrito. 
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Grupos CH de anéis aromáticos são des- 
critos explicitamente. 

Campo de força coarse-grained : transforma 
grupos de átomos em partículas, reduzin- 
do o custo computacional ainda mais do 
que campos de átomo unido. 

Condições periódicas de contorno: condição 
empregada em simulações por DM que 
impede o contato das moléculas do siste- 
ma com o vácuo, representando o sistema 
de forma periódica. 

Cut-off\ representa um corte no cálculo de inte- 
rações não ligadas, reduzindo o custo 
computacional do cálculo. A partir da dis- 
tância definida, estas interações não são 
mais calculadas. 

Diedro próprio: ângulo formado por quatro áto- 
mos ligados em sequência. Os primeiros 
três átomos definem um plano, enquanto 
os últimos três definem outro plano. O 
ângulo formado por estes dois planos é o 
diedro. 

Diedro impróprio: ângulo formado por quatro 
átomos que não estão ligados em 
sequência. É empregado para garantir, por 
exemplo, a quiralidade de átomos e a pla- 
naridade de anéis. 

Dinâmica molecular: tipo de cálculo em que as 
coordenadas dos átomos variam como 
função do tempo. 

Equilibração: período em que propriedades de 
uma simulação de DM demoram para 
atingir um patamar estável. Diferentes 
propriedades podem requerer tempos di- 
ferentes para equilibrar. 

Mecânica molecular: tipo de cálculo em que o 
comportamento molecular é descrito a 
partir das equações da mecânica clássica 
ou de Newton. 

Mecânica quântica: tipo de cálculo em que o 


comportamento molecular é descrito a 
partir das equações da mecânica quântica. 

Minimização de energia: tipo de cálculo em que 
a energia do sistema é reduzida através 
da otimização das posições atômicas. 

Modelo de água explícito: modelo no qual as 
moléculas de água são descritas pela pre- 
sença física de seus átomos. 

Modelo de água implícito: modelo no qual as 
moléculas de água são descritas sem a 
presença física de seus átomos. 

NPT: condição de simulação na qual o número 
de partículas, a pressão e a temperatura 
permanecem constantes. 

NVT: condição de simulação na qual o número 
de partículas, o volume e a temperatura 
permanecem constantes. 

Tempo de integração: tamanho do passo em- 
pregado em cálculos de DM. 

Transferabilidade: em um campo de força, se 
refere à manutenção das propriedades de 
um grupamento funcional em diferentes 
moléculas. Assim, uma hidroxila alcoólica 
de um resíduo de serina terá os mesmos 
parâmetros que a mesma hidroxila em 
uma treonina. 

8.9. Leitura recomendada 
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Predição do modo de ligação do GTP no sítio de liga- 
ção da proteína c-H-ras p21. 


9.1. Introdução 

9.2. Reconhecimento molecular 
9.B. Métodos de atracamento 

9.4. Triagem em larga escala 

9.5. Considerações finais 

9.6. Conceitos-chave 


9.1. Introdução 

Para se compreender a maioria dos me- 
canismos e processos celulares é necessário 
determinar e compreender o modo de intera- 
ção entre macromoléculas (principalmente 
proteínas e ácidos nucleicos) ou entre uma 
macromolécula e uma pequena molécula li- 
gante, que pode atuar como agonista/antago- 
nista ou substrato/inibidor em determinado 
processo fisiológico. 

Complexos macromoleculares podem 
envolver dezenas ou centenas de componen- 
tes, tais como na formação dos poros nuclea- 
res, formação de ribossomos, formação de 
chaperonas como a GroEL e na formação de 
capsídeos de vírus (Figura 1-9). Quais proteí- 
nas interagem e o modo de interação são in- 
formações de fundamental importância para 
a compreensão do funcionamento de proces- 
sos biomoleculares. 

Por outro lado, o conhecimento do mo- 
do de interação entre pequenas moléculas li- 
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Figura 1-9: Exemplos de complexos 

moleculares: (A) chaperona GroEL (PDB ID 
1A0N), (B) complexo DNA com proteína DMT1 
(PDB ID 3PT6) e (C) complexo da enzima HIV-1 
protease com o inibidor indinavir (PDB ID 
1H5G). As versões menores em B e C estão 
em escala com A. 

gantes e proteínas alvo, com um papel crucial 
em processos fisiopatológicos, é de grande 
importância para o planejamento racional de 
fármacos. Neste sentido a técnica computa- 
cional denominada atracamento molecular 
( moiecuLor docking, em inglês), dedicada à 
previsão do modo de ligação e dos detalhes 
do reconhecimento molecular proteína-pro- 
teína e receptor-ligante (Figura 2-9), assume 
cada vez mais papel de destaque em pesquisa 
associadas à saúde e à biotecnologia. 

Proteína Complexo 


Ligante 

+ ^ = 

Figura 2-9: Emprego do método de 

atracamento molecular na predição do modo 
de ligação do GTP ao seu sítio de ligação na 
proteína c-FI-ras p21. 
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Os métodos de atracamento molecular 
envolvem desafios teórico-computacionais 
formidáveis, e se dividem em duas classes de 
métodos distintos: receptor-ligante e recep- 
tor-proteína. Embora proteínas sejam os 
receptores mais comuns, outras biomolé- 
culas também podem exercer este papel. 
Diversos fármacos, por exemplo, modulam 
diretamente o DNA que, assim, passa a ser o 
receptor alvo. Adicionalmente, fármacos 
podem atuar modificando propriedades 
físico-química da célula, sem necessa- 
riamente envolver um processo de atraca- 
mento, como na modulação da fluidez de 
membranas plasmáticas. Neste capítulo, será 
dada mais ênfase aos métodos de atraca- 
mento proteína-ligante, contextualizados den- 
tro da área de planejamento racional de 
fármacos baseado em estruturas. 

9.2. Reconhecimento molecular 

As metodologias computacionais de 
atracamento proteína-ligante estão baseadas 
no modelo chave-fechadura, proposto por 
Emil Fischer em 1894. Neste modelo, o re- 
ceptor proteico é associado à uma “fechadu- 


ra”, e seu sítio de ligação ou sítio receptor é 
considerado como o “buraco da fechadura”. A 
possível “chave da fechadura” é o ligante, e a 
interação entre o ligante e a proteína está re- 
lacionada a uma das possíveis ações de “abrir 
ou trancar” a porta. 

0 modelo chave-fechadura, contudo, in- 
duz a uma interpretação de que a “fechadu- 
ra”, representada pela molécula receptora, é 
rígida. Entretanto, no meio biológico, tanto o 
ligante quanto a proteína são flexíveis, po- 
dendo modificar a sua conformação durante 
o processo de formação do complexo recep- 
tor-ligante. Uma visão mais adequada deste 
processo é denominada de encaixe induzido, 
onde tanto o ligante quanto a proteína se 
adaptam um ao outro durante o processo de 
reconhecimento molecular (Figura 3-9). De 
fato, a flexibilidade de uma proteína está di- 
retamente associada à sua atividade, seja na 
catálise de reações enzimáticas, na transdu- 
ção de sinais, no transporte através de pro- 
teínas de membrana, ou em mudanças 
conformacionais associadas a formas ativas e 
não ativas de proteínas. 

Uma visão mais moderna do atracamento proteína- 
ligante descreve uma proteína como um conjunto de 




c 


Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptídico da enzima 
protease do HIV-1, (B) diversas conformações de alça no sítio de ligação do ATP à enzima MAP 
cinase p38, e (C) mudança conformacional da cadeia lateral de resíduo na enzima cinase JNK3, 
influenciada por diferentes inibidores. 
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estados conformacionais, com estruturas similares e 
energeticamente equivalentes. Nesta visão, ao interagir 
com determinada proteína, um ligante seleciona uma 
determinada conformação entre as preexistentes (com 
a qual possui maior afinidade) e desloca o equilíbrio 
químico de tal forma que esta conformação tenha a 
sua proporção aumentada na população total de esta- 
dos. É importante ressaltar que estudos experimentais 
sugerem que estes dois mecanismos, encaixe induzido 
e seleção conformacional, podem coexistir em um 
mesmo sistema ligante-receptor. Estas visões são 
muito importantes para direcionar as metodologias de 
atracamento proteína-ligante no sentido de fornecer 
um tratamento adequado do problema da flexibilidade 
intrínseca do receptor proteico. 

A introdução da flexibilidade do receptor proteico é 
um dos maiores desafios das metodologias de atraca- 
mento proteína-ligante. Em parte, isto se deve ao fato 
de que determinadas mudanças conformacionais im- 
portantes para a função de proteínas são difíceis de 
serem caracterizadas experimentalmente e/ou com- 
putacionalmente por envolverem milhares de graus de 
liberdade. Tal complexidade leva estes processos a 
ocorrerem em escalas de tempo desde microssegun- 
dos a vários minutos, envolvendo amplitudes de deslo- 
camento de até dezenas de angstroms (1 Â = IO -10 m). 

0 reconhecimento molecular proteína- 
ligante está baseado na complementaridade 
de características físico-químicas e estrutu- 
rais das moléculas interagentes. As caracte- 
rísticas físico-químicas definem o grau de 
afinidade e de especificidade do ligante pela 
proteína, e estão relacionadas com as intera- 
ções intermoleculares existentes no comple- 
xo. Estas interações incluem as ligações de 
hidrogênio, as interações provenientes do 
efeito hidrofóbico, as interações de van der 
Waals, as interações eletrostáticas e as liga- 
ções covalentes que possam ser formadas 
durante o processo de interação receptor-li- 
gante. As características estruturais, por sua 
vez, estão associadas aos arranjos espaciais 
moleculares, dados por variações na orienta- 
ção, posicionamento espacial e rotações de li- 
gações químicas das moléculas interagentes. 

Ligantes e proteínas que possuem uma 
alta afinidade um pelo outro exibem as se- 
guintes características: 

i) alto nível de complementaridade es- 


térica, ou seja, a proteína e o ligante 
possuem uma alta porcentagem de suas 
superfícies de contato moleculares, de- 
finidas pelos raios de van der Waals 
atômicos, em contato próximo: 
ii) alta complementaridade de proprie- 
dades associadas às superfícies de con- 
tato moleculares (esta complemen- 
taridade pode ser tanto eletrostática, 
onde grupos polares/carregados do li- 
gante ficam perto de grupos da proteína 
com polaridade/carga complementar, 
quanto relacionada à complementarida- 
de de regiões hidrofóbicas); 
iií) o ligante geralmente se liga em uma 
conformação energeticamente favorá- 
vel, e 

iv) interações repulsivas entre ligante e 
proteínas são minimizadas. 

Interações proteína-ligante 

Os principais tipos de interações inter- 
moleculares envolvidas no reconhecimento 
molecular proteína-ligante incluem: 

i) ligações de hidrogênio: 

ii) interações de van der Waals; 
iií) interações iônicas; 

iv) interações hidrofóbicas: 

v) interações do tipo cátion-rc; 

vi) interações envolvendo anéis aromá- 
ticos do tipo JI- 7 I e empilhamento-T, e 

vii) coordenação com íons metálicos. 

0 efeito hidrofóbico origina-se do fato 
de que partes apoiares do ligante e do sítio 
ativo interagem com o solvente, sendo que 
estas se encontram solvatadas por camadas 
de moléculas de água mais organizadas. A 
aproximação destas partes apoiares, durante 
a interação proteína-ligante, liberam e desor- 
ganizam as moléculas de água, aumentando a 
entropia do sistema e consequentemente fa- 
vorecem a formação do complexo proteína- 
ligante. 0 aumento na entropia do solvente 
associado ao ocultamento das superfícies 
apoiares é chamado de efeito hidrofóbico. 

Este efeito destaca o papel fundamental 
do solvente aquoso no processo de reconhe- 
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cimento molecular proteína-ligante. Em algu- 
mas situações, as moléculas de água assu- 
mem tal importância que sua presença é 
considerada estrutural, sendo por isso deno- 
minadas moléculas de água estruturais. 

Estas moléculas estão ligadas forte- 
mente ao sítio ativo, e geralmente são con- 
servadas em sítios de ligação de proteínas 
homólogas. A presença destas moléculas nos 
sítios receptores de proteínas podem interfe- 
rir no acesso do ligante ao sítio ativo e modifi- 
car o perfil de formação de ligações de 
hidrogênio, contribuindo portanto diretamente 
no sucesso das metodologias de atracamento 
proteína-ligante. 

Durante a formação do complexo ocorre a perda de 
entropia rotacional e translacional do ligante, além de 
variações na sua entropia vibracional e conformacional 
devido às restrições de comprimento de ligação, defor- 
mação angular e ângulos diedrais. Estas também são 
contribuições entrópicas importantes que ocorrem du- 
rante o processo de reconhecimento molecular. 

0 processo de reconhecimento molecu- 
lar proteína-ligante é dirigido por uma combi- 
nação de efeitos entálpicos e entrópicos. 
Estes efeitos podem ser estimados através 
da energia livre de ligação de Gibbs que, por 
sua vez, está diretamente relacionada à cons- 
tante de equilíbrio de ligação K eq , a qual pode 
ser medida experimentalmente. 

AG lig = AH-TAS = -RT\nK eq 

onde AH é a variação de entalpia, Té a tem- 
peratura absoluta, AS é a variação de entropia 
e R é a constante universal dos gases. 

A constante de equilíbrio de ligação K eq 
é determinada experimentalmente com rela- 
ção a um estado de referência (usualmente, 
para sistemas biológicos, utilizando uma con- 
centração de 1 M e 25 °C). Esta constante de 
equilíbrio pode ser representada pela cons- 
tante de dissociação (AT d ) ou de associação 
(Kj, as quais dependem da representação da 
reação química sendo uma o inverso da outra. 

K á = ([*][/,])/[*£] K a = [itt]/([i?][Z]) 
onde (/?], [l] e [i?Z] são as concentrações de 


receptor, do ligante e do complexo receptor- 
ligante respectivamente. 

A determinação destas constantes de- 
pende fortemente da temperatura, pressão, 
pH e força iônica da solução. Para comparar a 
afinidade de moléculas distintas por um mes- 
mo receptor obtidas por grupos de pesquisa 
distintos é necessário que os experimentos 
tenham sido realizados sob as mesmas con- 
dições. 

Tanto as contribuições entálpicas quanto entrópicas 
são importantes para a interação receptor-ligante. 
Muitas vezes, há uma compensação entre estas duas 
contribuições, podendo a ligação ser determinada prin- 
cipalmente pela contribuição entálpica (compensando 
uma perda entrópica) ou pela contribuição entrópica 
(compensando uma variação de entalpia positiva). 

A energia livre de ligação de Gibbs pode 
ser obtida através de métodos teóricos, em- 
bora a obtenção de estimativas mais precisas 
envolva um custo computacional muitas ve- 
zes proibitivo para estudos de atracamento 
molecular em larga escala envolvendo deze- 
nas, centenas ou milhares de ligantes. Alguns 
dos métodos mais comumente utilizados para 
cálculo da energia livre incluem o método de 
perturbação da energia livre (PEL) e o método 
de integração termodinâmica (IT), que procu- 
ram calcular diferenças entre as energias li- 
vres de ligação entre ligantes similares. 

Embora esses métodos sejam precisos, com erros 
de aproximadamente 1 kcal/mol, o alto custo compu- 
tacional envolvido limita a sua utilização. Esses méto- 
dos necessitam do conhecimento prévio da estrutura 
de um complexo onde a proteína está associada com 
um ligante com estrutura similar ao que se quer estu- 
dar. Além disso, tendem a ter um pior desempenho 
quando os compostos envolvidos diferem de muitos 
átomos e/ou promovem mudanças conformacionais 
significativas no receptor. Métodos ainda mais podero- 
sos (conhecidos na literatura como AbsoLute Binding 
Free Energies Methods), e com custos computacionais 
mais elevados, procuram calcular os valores das ener- 
gias livres de ligação sem a necessidade de se ter pre- 
viamente como referência o conhecimento da energia 
livre de ligação de um ligante similar. 

Uma metodologia mais simples e bas- 
tante utilizada para a obtenção de energias li- 
vres de ligação é a chamada Energia de 
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Interação Linear (LIE, do inglês Linear Interac- 
tion Energy), a qual trata de estimar as ener- 
gias livres a partir de simulações de dinâmica 
molecular utilizando um campo de força mo- 
lecular clássico. Os cálculos de energia livre 
com esta metodologia envolvem simulações 
somente nos estados inicial (ligante em solu- 
ção) e final (complexo receptor/ligante), po- 
dendo reduzir desta maneira os problemas de 
convergência e custo computacionais associ- 
ados às técnicas PEL e IT. A ideia principal é 
considerar as contribuições polares e não po- 
lares separadamente. A parte polar ou ele- 
trostática pode ser tratada usando a 
aproximação de resposta linear, enquanto que 
a não polar é calculada usando uma fórmula 
empírica calibrada sobre um conjunto de da- 
dos experimentais: 

AG u =a((vt\ g - <^% vre ) + m i )u s - (n iv j 

onde a é o fator empírico que surge das inte- 
rações não polares e (3 é o correspondente às 
interações eletrostáticas. V representa os va- 
lores médios da energia de interação entre o 
ligante e o meio circundante, tanto para o ter- 
mo eletrostático ( el ) como para o de Lennard- 
Jones (LJ). 0 método de Energia de Interação 
Linear tem sido aplicado com sucesso em sis- 
temas complexos, o que o torna um método 
eficiente e mais rápido para a determinação 
de energias livres de ligação, mas com um 
custo computacional suficientemente grande 
para torná-lo praticamente inviável para estu- 
dos envolvendo várias dezenas ou centenas 
de ligantes. 

Outro método utilizado para se obter melhores 
predições para as energias livres de ligação é o MM- 
PBSA ( Moiecuior Mechanics Poisson-BoLtzmann 
Surface Area ) e MM-GBSA ( Moiecuior Mechanics 
GeneraLized-Born Surface Area). Estes métodos utili- 
zam simulações de dinâmica molecular do ligante/pro- 
teína livres e do complexo como base para os cálculos 
da energia potencial média e de solvatação. 

A obtenção de uma descrição suficien- 
temente acurada e viável computacionalmen- 
te do papel das moléculas de água no 
processo de reconhecimento molecular e a 
quantificação correta das variações entrópi- 


cas conformacionais das moléculas intera- 
gentes são alguns dos maiores desafios para 
o desenvolvimento das metodologias de 
atracamento molecular. 

9.3. Métodos de atracamento 

0 problema de atracamento molecular 
pode ser dividido em duas partes principais: 
i) investigação e predição da confor- 
mação e orientação de uma molécula 
ligante no seu sítio de complexação; 
ü) predição da afinidade em um com- 
plexo receptor-ligante, isto é, a energia 
livre de ligação (normalmente chamado 
na literatura de função s coring). 

Atualmente existem diversos progra- 
mas de atracamento molecular disponíveis 
(Tabela 1-9), distinguindo-se principalmente 
pelo método de busca e pela função de avali- 
ação de afinidade empregada. Podem ainda 
diferir quanto à possibilidade de serem utili- 
zados através de portais ou localmente, de 
utilização gratuita ou paga, na necessidade de 
registro e na integração com bancos de ligan- 
tes e proteínas. 

Tabela 1-9: Portais de acesso para alguns 
programas de atracamento molecular. 


Portal 

Programa de j 

atracamento 

SwissDock 

EADock DSS 

DockingServer 

AutoDock 

DockThor Portal 

DockThor 

1-Click Docking 

AutoDock Vina 

DOCK Blaster 

DOCK 

Docking At UTMB 

AutoDock Vina 

ParDOCK 

Método de Monte Cario 

PATCHDOCK 

PatchDock 

MEDock 

MEDock 


Preparação do sistema 


Uma etapa muito importante para um 
estudo de reconhecimento molecular proteí- 
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na-ligante é a preparação do sistema. O pri- 
meiro passo nesta etapa é a obtenção das co- 
ordenadas das estruturas tridimensionais das 
moléculas interagentes. Com relação à pro- 
teína, o Protein Doto Bank é atualmente a 
maior fonte pública de estruturas de proteí- 
nas e ácidos nucleicos resolvidos experimen- 
talmente através, principalmente, das 
técnicas de difração de raios-X e RMN. Na au- 
sência de dados experimentais, estruturas tri- 
dimensionais de proteínas podem ser obtidas 
utilizando-se técnicas de predição de estrutu- 
ras baseadas em modelagem comparativa ou 
outros métodos, tais como técnicas baseadas 
em fragmentos e técnicas baseadas em pri- 
meiros princípios. 

As estruturas de ligantes podem ser 
obtidas de vários bancos de dados contendo 
milhares a milhões de ligantes no formato 1D 
(smi, s impLified-moLecuLar input-entry 
system, também chamado de formato 
SMILES) ou 2D (sdf, structure-data fiie 
format, também suporta formato 3 D). A ge- 
ração de uma estrutura 3D de um ligante a 
partir de uma representação 1D ou 2D (Figura 
4-9) pode ser feita através de vários progra- 
mas tais como, CORINA, CONCORD, OMEGA, 
Balloon e Multiconf-DOCK. 

Uma vez que as estruturas 3D das mo- 
léculas tenham sido obtidas, vários cuidados 
devem ser tomados durante a preparação 
dos arquivos de entrada para a realização de 
cálculos de atracamento molecular. Com re- 
lação ao sítio de ligação em uma proteína al- 
vo, é necessário primeiramente que se tenha 
a informação da localização do mesmo. Em 
um segundo momento, é muito importante 
realizar um estudo das características físico- 
químicas e estruturais deste sítio. No caso de 
enzimas, um estudo (incluindo uma pesquisa 
bibliográfica) para obter o máximo de infor- 
mações sobre a reação enzimática envolvida 
também deve ser realizado. 

Como a localização do sítio receptor de 
uma proteína nem sempre é conhecida, méto- 
dos computacionais podem ser utilizados pa- 
ra prever os possíveis sítios de ligação. Estes 
métodos podem se basear em análises geo- 
métricas e de volume para identificar cavida- 



-G 

V Ovy' ^ 

f n ■' Estados de 

protonaçào 
Tautomerismo 


Jr 
r - 


r 5Hrr 


rO 

J 




frt 


Figura 4-9: Principais etapas de preparação 
do ligante. 


des (tais como FINDSITE, SURFNET e LIGSITE), 
em energias de interação (Q-SITEFINDER e 
GRID) e no uso de propriedades de sítios de li- 
gação conhecidos para efetuar uma busca 
por padrões (webPDBinder). 

Mesmo quando se tem uma estrutura 
tridimensional determinada experimental- 
mente, é importante que se faça uma investi- 
gação minuciosa da estrutura na região do 
sítio ativo à procura de erros (programas co- 
mo WHAT_IF, MOLPROBITY e PROCHECK po- 
dem ser utilizados para checar a qualidade da 
estrutura e corrigir alguns tipos de erros). 
Alguns dos possíveis problemas que podem 
ser encontrados são: 

i) ausência de átomos e/ou resíduos: 

ii) mal posicionamento de cadeias la- 
terais, particularmente importante para 
os resíduos de asparagina, glutamina e 
histidina, onde as cadeias laterais po- 
dem apresentar inversões, tais como a 
inversão entre os átomos OG e ND na 
asparagina: 

Ui) presença de duas ou mais confor- 
mações para um resíduo ou conjunto de 
resíduos representando configurações 
alternativas para a mesma proteína: 
iv) conformações não nativas, seja de 
uma cadeia lateral ou de uma estrutura 
2 ária , devido a efeitos de empacotamen- 
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to das proteínas no cristal. 

Um segundo aspecto de grande rele- 
vância na preparação do sítio receptor é es- 
tabelecer o estado de protonação correto dos 
resíduos que participam da interação com o 
ligante (Figura 5-9). É muito comum que resí- 
duos como cisteína, glutamato, aspartato e 
histidina tenham estados de protonação não 
usuais, influenciados e estabilizados pelo am- 
biente eletrostático do sítio ativo. Este pro- 
blema pode ser tratado utilizando estratégias 
complementares, tais como: 

i) análise de diferentes complexos (mui- 
tas vezes de proteínas homólogas) com 
distintos ligantes; 

ii) estudo da literatura a respeito do 
mecanismo de reação enzimática; 

Ui) uso de programas para prever o 
pKa de cada resíduo do sítio ativo/re- 
ceptor (por exemplo, através do pro- 
grama PROPKA). 

Com relação ao ligante, a etapa de pre- 
paração envolve diversos cuidados, tais como 
a determinação do seu estado de protonação, 
estado tautomérico, forma enantiomérica 
ativa biologicamente (Figura 4-9), a identifi- 
cação das suas ligações químicas flexíveis 
(Figura 6-9) e, a partir destas, a geração de 
múltiplas conformações. 

A determinação do estado de protona- 
ção do ligante é uma tarefa não trivial, pois 
envolve não só o pH mas também a interação 
com o sítio de ligação. Para tentar minimizar 
este problema, muitas vezes o atracamento é 
feito levando-se em conta os vários estados 
de protonação do ligante. 

A geração de várias conformações para 
o ligante é importante no caso de metodolo- 
gias de atracamento que não levam em conta 
a flexibilidade do mesmo e fazem o atraca- 
mento do ligante rígido para cada conforma- 
ção representativa. Um caso específico está 
relacionado a estruturas cíclicas, cuja flexibi- 
lidade geralmente não é levada em conside- 
ração durante o processo de atracamento. 

Ligantes contendo estruturas cíclicas 
não aromáticas podem exibir mudanças con- 



Figura 5-9: Diferentes estados de protonação 
dos aspartatos catalíticos na estrutura da 
HIV-1 Protease complexada com o inibidor 
KNI-272. Estrutura determinada por difração 
de nêutrons. 

formacionais relevantes no processo de re- 
conhecimento molecular. Para estes casos, a 
geração de um conjunto de estruturas repre- 
sentativas das mudanças conformacionais e a 
utilização destas em múltiplos estudos de 
atracamento é a solução indicada. LIGPREP é 
um exemplo de programa que gera tautôme- 
ros, diferentes conformações de estruturas 
cíclicas, diferentes estados de protonação de 
acordo com o pH e diferentes estereoisôme- 
ros para um determinado ligante. 

É importante ressaltar que dificilmente 
metodologia de busca ou função avaliação é 
capaz de corrigir ou superar os problemas 
causados por uma má caracterização do es- 
tado de protonação de um ligante ou de resí- 
duos de aminoácidos importantes presentes 
no sítio de ligação. A correta preparação das 
estruturas 3D do ligante e da proteína, junta- 
mente com a correta determinação das mo- 
léculas de água estruturais, são etapas 
cruciais para obter sucesso na utilização das 
metodologias de atracamento receptor-li- 
gante. 

Algumas metodologias de atracamento 
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Figura 6-9: Graus de Liberdade conforma- 
cionais do indinavir, representados por setas. 


mais sofisticadas procuram avaliar os dife- 
rentes estados de protonação do Ligante e 
das cadeias Laterais dos resíduos durante a 
execução do algoritmo. eHiTS é um exemplo 
de programa que utiliza este tipo de estraté- 
gia. 

Métodos de busca 

A exploração das diferentes orientações 
e conformações possíveis para um ligante no 
sítio de ligação do receptor alvo pelo progra- 
ma de atracamento deve ser feita de tal for- 
ma a se encontrar a solução ótima, ou seja, o 
mínimo global de energia. Se os efeitos entró- 
picos e entálpicos associados à termodinâmi- 
ca do sistema (ou seja, a energia livre do 
sistema) forem corretamente modelados pe- 
la função de energia, então o mínimo global 
de energia da superfície investigada vai estar 
associado ao modo de ligação receptor-ligan- 
te encontrado experimentalmente. Infeliz- 
mente, devido às aproximações introduzidas 
no modelo de interação molecular, nem sem- 
pre o mínimo global satisfaz este importante 
requisito. 

Um ligante pode variar sua orientação 
dentro do sítio de ligação através de movi- 
mentos de translação e rotação (os chama- 
dos graus de liberdade translacionais e 
rotacionais). Além destas modificações, a 
presença de ângulos diedrais rotacionáveis 
(isto é, ligações químicas simples) do ligante 
correspondem aos graus de liberdade confor- 
macionais. Na Figura 6-9 são mostrados os 


graus de liberdade conformacionais do indi- 
navir, inibidor da protease do HIV-1. 

A flexibilidade das moléculas interagen- 
tes é considerada de maneira variada pelos 
diversos métodos de atracamento molecular. 
Três principais estratégias são utilizadas: 

i) a proteína é considerada rígida, e 
apenas os graus de liberdade translaci- 
onais e rotacionais do ligante são consi- 
derados, ou seja, o ligante é fixado em 
uma conformação rígida; 

ii) a proteína é considerada rígida, mas 
todos os graus de liberdade do ligante 
(translacionais, rotacionais e conforma- 
cionais) são levados em conta; 

Ui) a proteína é considerada totalmente 
ou parcialmente flexível, e todos os 
graus de liberdade do ligante também 
são considerados. 

Nas metodologias que utilizam a estra- 
tégia i é possível considerar a flexibilidade do 
ligante através da construção prévia de um 
conjunto de conformações representativas e 
a subsequente realização de vários cálculos 
de atracamento molecular do tipo receptor- 
rígido. De modo análogo, com relação à se- 
gunda estratégia, é possível considerar a fle- 
xibilidade da proteína em atracamentos do 
tipo receptor-rígido através da geração de um 
conjunto de conformações representativo da 
flexibilidade do receptor proteico. 

Os métodos de busca dos programas de 
atracamento ligante-receptor podem ser 
classificados basicamente em três categorias: 
métodos de busca sistemática, métodos de 
busca determinística e métodos de busca es- 
tocástica. Alguns programas utilizam em 
conjunto algumas destas diferentes aborda- 
gens. 

Nos métodos de busca sistemática, um 
conjunto de valores é estabelecido para cada 
grau de liberdade. 0 objetivo é explorar de 
forma combinatória todos os graus de liber- 
dade da molécula durante a busca. 

Um dos principais exemplos de métodos de busca 
sistemática são os algoritmos de construção incre- 
mental, um tipo de abordagem baseada em fragmen- 
tos. Nestes algoritmos, o ligante é dividido em 
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pequenos fragmentos rígidos. Em um primeiro mo- 
mento, um fragmento-base é ancorado no sítio recep- 
tor e, posteriormente, todos os outros fragmentos são 
adicionados de forma incremental, até a reconstrução 
total do ligante. Cada fragmento adicionado possui uma 
ligação química rotacionável com o fragmento base. A 
junção dos fragmentos é feita com base em uma busca 
conformacional, a partir de um banco de valores de 
ângulos diedrais, de maneira a investigar sistematica- 
mente a flexibilidade associada a este ângulo específi- 
co. Exemplos de programas de atracamento que 
utilizam construção incremental são DOCK, FlexX, GLi- 
de, EUDOC e Surflex. 

Nos métodos de busca determinística, 
dado um mesmo estado inicial de entrada, é 
obtido sempre o mesmo resultado de saída. 
Métodos de simulação por dinâmica molecu- 
lar e métodos clássicos de minimização de 
energia são exemplos de métodos de busca 
determinística utilizados por programas de 
atracamento molecular. 

Uma das grandes vantagens dos métodos de atra- 
camento baseados em dinâmica molecular é que tanto 
a influência do solvente explícito quanto de todos os 
graus de liberdade do complexo proteína-ligante são 
explorados de forma mais natural. Entretanto, estes 
métodos possuem um custo computacional elevado e, 
dependendo da altura das barreiras de energia encon- 
tradas, podem ficar presos em configurações associa- 
das a mínimos locais do sistema. 

Para tentar superar esta limitação, á possível utili- 
zar algumas estratégias como, por exemplo, aumentar 
a temperatura de simulação, suavizar a superfície de 
energia potencial e simular diferentes partes do siste- 
ma proteína-ligante com diferentes temperaturas, 
além de iniciar os cálculos de dinâmica molecular com 
o ligante em distintas conformações. 0 programa 
CDOCKER é um exemplo de programa que utiliza DM 
em conjunto com a geração de várias configurações do 
ligante para serem utilizadas como pontos de partida 
em simulações com altas temperaturas e potenciais 
suavizados. 

Ainda, uma técnica que tem sido utilizada com bas- 
tante sucesso no estudo de interações ligante-receptor 
é a metadinâmica. Nesta técnica, uma força adicional é 
calculada durante a simulação de DM. Esta força de- 
pende do próprio histórico da simulação, e tem a fun- 
ção de facilitar a amostragem do espaço 
configuracional do sistema, tentando diminuir a proba- 


bilidade de que configurações já visitadas venham a ser 
amostradas novamente. 

Os métodos baseados em DM podem ser utilizados 
em uma estratégia conjunta com outros tipos de mé- 
todos de busca. Nesta estratégia, métodos sistemáti- 
cos/incrementais/estocásticos são utilizados para 
gerar um conjunto de configurações proteína-ligante 
prováveis. Nesta etapa, muito mais rápida, são intro- 
duzidas restrições associadas à flexibilidade do ligante 
e da proteína, e quanto à descrição do efeito solvente 
(uso da aproximação de solvente implícito). Na etapa 
seguinte, muito mais custosa, simulações de DM com 
solvente explícito e considerando flexibilidade total do 
receptor e do ligante são realizadas tomando-se como 
ponto de partida as melhores configurações geradas 
na etapa anterior. 

Nos métodos de busca estocástica o 
processo de otimização envolve movimentos 
aleatórios associados aos graus de liberdade. 
Este fato implica na possibilidade de se obter 
diferentes resultados como saída para um 
mesmo estado inicial de entrada. A maioria 
dos métodos desta classe não possui garantia 
de convergência. Portanto, em estudos de 
atracamento molecular, várias execuções in- 
dependentes do algoritmo são necessárias 
para se realizar uma boa investigação do sis- 
tema. Monte Cario, Recozimento Simulado 
(Simulated AnneaLing ) e Algoritmos Evolucio- 
nistas são exemplos de métodos de busca 
estocástica mais comumente utilizados por 
programas de atracamento receptor-ligante. 
Glide, ICM, Prodock, AutoDock e LigandFit são 
exemplos de programas que utilizam os mé- 
todos estocásticos de Monte Cario e 5imulo- 
ted AnneaLing. 

No método de Monte Cario padrão (MC) é gerada 
aleatoriamente uma conformação inicial do ligante e, 
em seguida, tomando esta configuração como refe- 
rência, é gerada uma nova configuração. Se a configu- 
ração gerada possuir energia menor que a 
configuração de referência (AF<0), a nova configuração 
é imediatamente aceita e tomada como referência para 
a próxima iteração. Caso contrário (AF>0), o critério de 
Metropólis é utilizado para decidir se a nova configura- 
ção será aceita ou não. Esse processo é repetido até 
que o número desejado de configurações seja obtido. 

0 critério de Metropólis consiste em se gerar um 
número aleatório entre 0 e 1 e compará-lo com o fator 
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de Boltzmann, exp(-AV/kBT), considerando uma deter- 
minada temperatura absoluta T. Se o fator de 
Boltzman for maior que o número aleatório gerado a 
nova conformação á aceita. 0 método de Simutated 
Anneaiing (SA) pode ser considerado uma variação do 
método de Monte Cario, onde o primeiro ciclo da simu- 
lação é realizado em uma alta temperatura, sendo que 
esta decai para temperaturas menores durante os ci- 
clos seguintes. Diferentes variantes de SA utilizam dis- 
tintas estratégias para o decaimento da temperatura. 

0 programa MCDOCK utiliza o método SA, o qual 
também foi utilizado nas primeiras versões do progra- 
ma Autodock. Prodock e ICM são exemplos de progra- 
mas de atracamento que utilizam o método de MC com 
minimização. Neste caso, após um movimento aleató- 
rio, a conformação é otimizada por um método basea- 
do em otimização de energia antes que o critério de 
Metrópolis seja aplicado. 

Uma das classes de algoritmos esto- 
cásticos mais utilizadas por programas de 
atracamento molecular proteína-ligante é a 
de Algoritmos Evolucionistas (AE). Estes al- 
goritmos são inspirados no processo biológico 
de evolução de populações. Esses algoritmos 
pertencem à área de Computação Evolucio- 
nista (CE), que abrange vários tipos de algo- 
ritmos, tais como Algoritmos Genéticos (AG), 
Estratégias de Evolução (EE), Evolução Dife- 
rencial (ED), Otimização por Colônia de For- 
migas (OCF), Busca Tabu (BT) e Enxame de 
Partículas (EP). Dentre esses, diversas vari- 
antes de Algorimos Genéticos têm sido im- 
plementadas para o atracamento de ligantes 
flexíveis. 

AGs são baseados no princípio de so- 
brevivência do mais adaptado, proposto pela 
teoria da evolução de Darwin. Ao contrário 
dos métodos MC e de outros métodos esto- 
cásticos que requerem uma única configura- 
ção inicial, AGs trabalham com uma 
população de indivíduos, onde cada indivíduo 
representa uma possível solução para o pro- 
blema a ser resolvido. A cada geração, novos 
indivíduos são gerados através da troca de 
“genes” entre dois indivíduos “pais” (recombi- 
nação) e de mudanças aleatórias nos valores 
dos “genes” (mutação). Este processo é re- 
petido de maneira que a população evolua 
para melhores soluções, até que um critério 


de parada predeterminado seja encontrado. 

0 primeiro programa de atracamento utilizando AG 
foi implementado por Judson e colaboradores em 
1994, seguido por uma implementação no programa 
DOCK. 0 programa de atracamento molecular GOLD 
utiliza um AG para evoluir múltiplas subpopulações de 
ligantes, onde a migração entre as populações é per- 
mitida. 0 programa AutoDock também possui imple- 
mentado um AG convencional e um AG Lamarckiano 
(AGL). 0 AGL é um AG híbrido com um método de bus- 
ca local (BL). A cada geração, uma porcentagem 
predefinida da população é aleatoriamente escolhida 
para aplicação da BL. 0 indivíduo resultante da BL 
substitui o indivíduo original, em uma alusão à teoria de 
Lamarck, sobre a hereditariedade de características 
adquiridas durante o tempo de vida de um indivíduo. 

Não há garantia de que os algoritmos 
evolucionistas encontrem o mínimo global da 
superfície de energia e, frequentemente, as 
melhores soluções encontradas ficam presas 
em mínimos locais. Múltiplas execuções do 
algoritmo são uma saída óbvia para se tentar 
uma exploração mais satisfatória do espaço 
de configurações associado aos modos de 
atracamento ligante-receptor. Porém, estes 
problemas tendem a se tornar ainda mais im- 
portantes e difíceis de enfrentar quando se li- 
da com ligantes altamente flexíveis (com 
mais de 10 ligações químicas rotacionáveis) 
e/ou se considera a flexibilidade da proteína 
em algum nível. 

0 programa DockThor (disponível através de portal 
web www.dockthor.lncc.br) tenta minimizar este pro- 
blema através do uso de um AG que procura preservar 
e obter em uma única execução do algoritmo uma 
multiplicidade de modos de ligação proteína-ligante. 
Devido à alta complexidade e modalidade (presença de 
muitos mínimos locais na superfície de energia) desta 
busca, principalmente para ligantes altamente flexí- 
veis, uma questão crítica é a preservação de diversida- 
de útil na população. 0 objetivo é permitir a 
investigação de múltiplas regiões de alta aptidão (ni- 
chos) em paralelo, de tal forma a se reduzir as chances 
de convergência para ótimos locais de baixa qualidade. 
Para a preservação de múltiplas soluções na popula- 
ção foi proposto o método MRT5 ( Modified Restricted 
Tournament SeLection), baseado no método de seleção 
por torneio restrito (RT5). 0 método MRT5 possui a 
vantagem de priorizar a preservação de diversidade 


198 


9. Atracamento Molecular 



“útil” na população, ou seja, incentiva a preservação de 
múltiplas soluções de alta aptidão na população ao 
mesmo tempo em que aumenta a probabilidade de se 
encontrar o mínimo global. 

Os programas MolDock, PRO_LEADS, SODOCK, 
P50@)Autodock, FIPSDOCK e Autodock Vina são 
exemplos de programas de atracamento que utilizam 
estratégias de otimização estocástica. 0 MolDock utili- 
za um algoritmo de evolução diferencial. Os programas 
SODOCK, PSO@) Autodock e FIPSDock utilizam variantes 
do algoritmo de otimização por enxame de partículas 
(j partide s warm). 0 PRO_LEADS utiliza um algoritmo 
de busca Tabu. 0 programa AutoDock Vina implementa 
um algoritmo similar ao utilizado pelo programa de 
atracamento ICM. Neste algoritmo, uma sucessão de 
passos consistindo de mutação e busca local são efe- 
tuados, onde o resultado de cada passo é aceito ou não 
de acordo com o critério de Metrópolis. 

Funções de avaliação 

Os métodos de busca geram uma gran- 
de quantidade de conformações do ligante 
durante o atracamento molecular. As funções 
de avaliação são combinadas aos métodos de 
busca para avaliar a qualidade destas confor- 
mações de forma a ordená-las de acordo com 
a sua afinidade pelo receptor. Uma função de 
avaliação deve ser capaz de distinguir o modo 
de ligação experimental dos outros encontra- 
dos pelo método de busca (ou seja, previsão 
do modo de ligação). Também deve ser capaz 
de ordenar corretamente uma lista de ligan- 
tes com relação às suas afinidades pela ma- 
cromolécula receptora (triagem virtual) e 
prever as respectivas energias livres de liga- 
ção (predição de afinidade). Sendo assim, o 
desempenho de uma função de avaliação está 
diretamente relacionado à sua capacidade de 
predição do correto modo de interação do li- 
gante e da sua afinidade pelo receptor alvo. 

Estas funções são modelos matemáti- 
cos, geralmente lineares, formados por dife- 
rentes termos relacionados às propriedades 
físico-químicas envolvidas na interação de 
uma pequena molécula ligante com seu sítio 
de ligação a um receptor. De acordo com o 
objetivo e a etapa do estudo de atracamento 
molecular, podem ser utilizadas diferentes 


funções de avaliação, que variam principal- 
mente no número e tipo de termos, na sua 
complexidade matemática e na forma de pa- 
rametrização. Para reduzir o custo computa- 
cional, uma função mais simples costuma ser 
utilizada durante a avaliação das conforma- 
ções geradas pelo método de busca. Já nas 
etapas finais do atracamento molecular, uma 
função de avaliação mais complexa e sofisti- 
cada é empregada de forma a obter uma 
maior acurácia na predição do correto modo 
de ligação e na predição da afinidade do li- 
gante pelo receptor. As funções de avaliação 
mais utilizadas no atracamento molecular re- 
ceptor-ligante podem ser classificadas em 
três tipos: baseadas em campo de força, em- 
píricas e baseadas em conhecimento. 

Funções de avaliação baseadas em 
campos de força constituem-se em uma so- 
ma de termos advindos de algum campo de 
força molecular clássico, cuja parametrização 
pode ser feita utilizando dados experimentais 
ou provenientes de cálculos quânticos (po- 
dendo também ser a combinação de ambos). 
Os termos de energia são divididos em ter- 
mos não-ligados (associados a interações de 
van der Waals, eletrostáticas e ligações de hi- 
drogênio) e termos ligados (representando 
normalmente a energia associada à torção de 
ligações químicas). Outros termos são nor- 
malmente utilizados para tentar incorporar 
efeitos adicionais, tais como energia de sol- 
vatação e interações hidrofóbicas. Exemplos 
de campos de força moleculares clássicos 
são GROMOS, AMBER, CHARMM e MMFF94. 

As funções empíricas são aquelas de- 
senvolvidas utilizando complexos receptor-li- 
gante com estruturas tridimensionais e 
afinidades conhecidas. A partir destes dados, 
seus termos são automaticamente ajustados 
de forma a reproduzir os dados experimentais 
de afinidade de ligação com a maior acurácia 
possível. Neste sentido, estas funções se ba- 
seiam na ideia de que a energia livre de liga- 
ção pode ser relacionada através do 
somatório de variáveis não correlacionadas. 
Cada variável possui um fator relativo de es- 
calonamento, parametrizado de forma a ma- 
ximizar a correlação com os dados 
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experimentais. A representação geral de uma 
função empírica é 

AG = £ W t ; . AG. 

em que W i é o coeficiente de cada termo AG. 
referente à determinada propriedade química 
considerada. A parametrização de uma fun- 
ção empírica tem como objetivo encontrar os 
valores de W i que maximizam a correlação da 
energia de ligação total (AG) com os dados 
experimentais de afinidade de um conjunto de 
complexos receptor-ligante que treinam o 
modelo (chamado conjunto de treinamento). 
Cada função empírica se diferencia no número 
e nos tipos de termos utilizados, bem como 
na forma e no conjunto de treinamento utili- 
zado para a sua parametrização. São 
exemplos de funções empíricas ChemScore, 
X-Score e GlideScore. 

Outro grupo de funções de avaliação 
são as baseadas em conhecimento. A inspira- 
ção para este tipo de função provém da me- 
cânica estatística em sistemas de fluidos 
simples, que empregam potenciais de força 
média ( potentials of meon force, PMF), sendo 
posteriormente modificadas para serem em- 
pregadas em estudos de predição de estrutu- 
ras de proteínas e estimação de constante de 
afinidade receptor-ligante. 

Estas funções são construídas a partir 
de análises estatísticas entre os pares de 
átomos dos complexos receptor-ligante re- 
solvidos experimentalmente. Seus termos 
são derivados a partir das frequências obser- 
vadas de interações específicas pré-definidas 
entre os pares de átomos de cada complexo. 
Com isto, as funções baseadas em conheci- 
mento tendem a capturar efeitos de intera- 
ções mais específicas e de modelagem mais 
complexa. Da mesma forma que as funções 
empíricas, estas funções se diferenciam pelo 
tamanho do conjunto de treinamento e no tipo 
de interações receptor-ligante consideradas 
durante a parametrização. Uma desvantagem 
das funções baseadas em conhecimentos é 
que dependem de um conjunto de treinamen- 
to bastante amplo para a parametrização. 
Além disso, as interações necessárias para 


construção de uma função baseada em co- 
nhecimento podem estar mal representadas 
no conjunto de treinamento utilizado ou ainda 
mal parametrizadas, tornando o uso destas 
funções restrito. Uma vantagem deste tipo de 
função é que, devido à relativa simplicidade de 
seus termos, elas conseguem ser tão rápidas 
quanto as funções empíricas. Alguns 
exemplos de funções baseadas em conheci- 
mento são DrugScore, RF-Score e PMF. 

É importante notar que não existe uma 
função de avaliação universal, assim como 
uma classe de função não é necessariamente 
melhor que outra ou geral o suficiente para 
ser utilizada com sucesso em qualquer estu- 
do de atracamento. Para obter maior eficiên- 
cia e confiabilidade, o ideal é utilizar a função 
de avaliação que mais se adequa ao problema 
a ser pesquisado. Por exemplo, é necessário 
saber se todos os tipos de átomos do recep- 
tor e do ligante em estudo são definidos na 
função de avaliação escolhida. Ainda, se a 
função de avaliação foi parametrizada e tes- 
tada para a classe do receptor e do ligante 
estudado. Assim, para estudo de carboidra- 
tos, o ideal é utilizar uma função que tenha 
incluído ligantes desta classe no conjunto de 
treinamento utilizado na parametrização. Re- 
alizar estudos tentando reproduzir complexos 
determinados experimentalmente (o chama- 
do redocking) também auxilia a diagnosticar 
se a função de avaliação escolhida é capaz de 
reproduzir os dados experimentais do com- 
plexo receptor-ligante (mais frequentemente 
proteína-ligante). 

Estimar a constante de afinidade, como 
dito anteriormente, ainda é um desafio im- 
portante na área da modelagem molecular. 
Em estudos de triagem virtual, por exemplo, é 
interessante utilizar mais de uma função de 
avaliação e comparar os resultados obtidos 
para chegar a um consenso. Entretanto, a 
análise qualitativa dos modos de ligação en- 
contrados, tais como a presença de intera- 
ções intermoleculares consideradas es- 
senciais para o alvo estudado, é de grande 
importância na detecção de falso-positivos. 
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Flexibilidade da Proteína 

A introdução da flexibilidade da proteína 
pelos algoritmos de atracamento molecular é 
atualmente um dos principais desafios desta 
área de pesquisa. Isto se deve ao grande nú- 
mero de graus de liberdade a serem conside- 
rados, principalmente relacionados aos graus 
de liberdade dos movimentos do esqueleto 
peptídico e das cadeias laterais dos resíduos 
de aminoácidos da proteína. 

Nos últimos anos, várias metodologias 
que procuram incorporar este efeito têm sido 
propostas e descritas na literatura, impulsio- 
nadas por dois importantes fatores. 0 pri- 
meiro é que o tratamento da flexibilidade da 
proteína é cada vez mais reconhecido como 
um aspecto de extrema relevância em estu- 
dos de planejamento racional de fármacos 
baseado na estrutura do seu receptor bioló- 
gico. São crescentes as evidências de que al- 
vos moleculares de grande interesse para a 
indústria farmacêutica passam por importan- 
tes mudanças conformacionais quando inte- 
ragindo com ligantes. 0 segundo fator foi o 
grande crescimento do poder de processa- 
mento dos computadores ocorrido nos últi- 
mos anos, o que tornou possível o 
desenvolvimento de novas metodologias, al- 
goritmos e abordagens, que seriam inviáveis 
em estudos de planejamento de fármacos há 
poucos anos. 

A flexibilidade da proteína pode estar 
associada a diferentes tipos de movimentos, 
tais como movimentos locais (como o movi- 
mento de cadeias laterais de resíduos de 
aminoácidos localizados no sítio de ligação), 
movimentos de média escala (como o rear- 
ranjo de alças ou reposicionamento de héli- 
ces) e movimentos de grande escala, 
associados a movimentos de domínios da 
proteína (Figura 3-9). Dependendo dos tipos 
de movimentos que se quer incorporar, dife- 
rentes tipos de metodologias são passíveis de 
serem utilizadas para um tratamento ade- 
quado. De maneira geral, as metodologias 
existentes podem ser divididas em três cate- 
gorias, associadas aos três mecanismos de 
encaixe ligante-proteína mencionados anteri- 


ormente: 

i) métodos associados ao mecanismo 
de encaixe induzido, onde são conside- 
rados os movimentos locais da proteína: 

ii) métodos associados ao mecanismo 
de conjunto de conformações (ensembie 
docking em inglês), em que são consi- 
derados movimentos de grande e larga 
escala: e 

iii) métodos híbridos, que levam os dois 
tipos de mecanismos e procuram consi- 
derar um amplo espectro de movimen- 
tos da proteína. 

Uma das estratégias mais simples de introduzir a 
flexibilidade local da proteína á a de suavizar o potenci- 
al repulsivo entre átomos do ligante e da proteína, isto 
é, suavizar o termo de r 12 do potencial de Lennard-Jo- 
nes, técnica esta conhecida na literatura como Recep- 
tor Soft-Docking. Na prática, isto permite que os 
ligantes possam se acomodar mais facilmente nas re- 
giões de interação, levando em conta a flexibilidade 
inerente da proteína. Do ponto de vista da superfície de 
energia isto corresponde a alargar as regiões de míni- 
mo, evitando assim que um eventual posicionamento 
incorreto de um átomo da proteína (dentro da aproxi- 
mação de atracamento com a proteína rígida) possa 
fazer explodir a energia de interação proteína-ligante, 
mesmo que esta esteja muito próxima da observada 
experimentalmente. 

Esta técnica também é utilizada para acelerar a 
convergência da busca conformacional. Normalmente, 
a intensidade da suavização é utilizada de forma de- 
crescente, permitindo que no início do processo de 
busca possa haver certa sobreposição entre os átomos 
do ligante e da proteína. Muitos programas de atraca- 
mento utilizam esta suavização embutida na sua fun- 
ção de avaliação. Uma das desvantagens deste método 
é que ele não é capaz de levar em consideração mu- 
danças conformacionais mais significativas do recep- 
tor. Outra desvantagem é a possibilidade de se 
introduzir erros na avaliação da energia de interação li- 
gante-proteína e de levar muitas vezes à obtenção de 
falsos positivos e/ou a um conjunto de soluções possí- 
veis cujas energias encontram-se muito próximas, não 
sendo possível discriminá-las energeticamente. 

Os métodos de atracamento mais so- 
fisticados que procuram incorporar a flexibi- 
lidade local da proteína simulando um 
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processo de encaixe induzido fazem isso ge- 
rando diversas conformações da proteína 
concomitantemente com o processo de busca 
conformacional do Ligante dentro do sítio de 
Ligação. Essa abordagem implica em selecio- 
nar graus de liberdade adicionais que sejam 
representativos da flexibilidade da proteína 
durante o processo de encaixe-induzido. Nor- 
malmente, são selecionados graus de liber- 
dade associados a cadeias laterais de 
resíduos importantes no sítio receptor e, em 
alguns casos, a regiões específicas do esque- 
leto peptídico da proteína, tais como alças 
flexíveis que estejam próximas do sítio e que 
possam interagir diretamente com os ligan- 
tes. 

0 problema com esta abordagem é que 
a complexidade do processo de busca cresce 
a cada grau de liberdade adicionado, aumen- 
tando o custo computacional e diminuindo a 
probabilidade do algoritmo encontrar o míni- 
mo global da superfície de energia. É neces- 
sário que o modelador faça uma escolha 
criteriosa de quais cadeias laterais deve con- 
siderar flexíveis. No caso de cadeias laterais 
de resíduos de aminoácidos, a busca confor- 
macional pode ser feita pela investigação 
exaustiva dos ângulos torcionáveis da cadeia 
ou através de uma busca discreta entre con- 
formações preferenciais através da utilização 
do uso de bibliotecas de rotâmeros. É impor- 
tante ressaltar que mesmo com a utilização 
destas bibliotecas, a inclusão da flexibilidade 
de várias cadeias laterais pode facilmente le- 
var a uma explosão combinatorial que preju- 
dica o desempenho dos algoritmos de 
atracamento. 

Outra estratégia comumente utilizada 
para introduzir certa acomodação proteína-li- 
gante no processo de atracamento envolve o 
emprego de um algoritmo de otimização lo- 
cal, tais como aqueles baseados na minimiza- 
ção do gradiente ou em Monte Cario, para 
reinvestigar as configurações ligante-proteína 
geradas durante o processo de busca. 0 pro- 
grama Prodock é um exemplo que utiliza a 
minimização por gradiente durante o proces- 
so de busca para incorporar a flexibilidade em 
regiões da cadeia principal da proteína. 0 pro- 


grama ICM/IFREDA utiliza o método de Monte 
Cario seguido de minimização de energia para 
otimizar cadeias laterais e/ou partes flexíveis 
do esqueleto peptídico. Os programas 
AutoDock4 e GOLD utilizam algoritmos gené- 
ticos para introduzir flexibilidade nas cadeias 
laterais de resíduos. 0 programa 
ROSETTALIGAND utiliza um método de Monte 
Cario para explorar simultaneamente os 
graus de liberdade associados ao ligante, às 
cadeias laterais dos resíduos e ao esqueleto 
peptídico da proteína. 

Os métodos que se baseiam no meca- 
nismo de conjunto-de-conformações fazem 
uso de um número discreto de conformações 
representativas da flexibilidade da proteína ao 
invés de considerar a flexibilidade da proteína 
explicitamente durante o processo de atraca- 
mento molecular (Figura 7-9). Estas confor- 
mações podem ser obtidas de distintos 
experimentos, utilizando as técnicas de difra- 
ção de raios-X e/ou RMN. Também podem ser 
obtidas a partir de modelos gerados por téc- 
nicas de predição de estruturas de proteínas, 
a partir de simulações de dinâmica molecular 
ou utilizando a técnica de modos normais. Há 
evidências significativas na literatura de que o 
uso de múltiplas conformações aumenta sig- 
nificativamente a probabilidade de obter su- 
cesso em estudos de atracamento molecular. 

Três questões importantes que se colo- 
cam a respeito destas abordagens e que dife- 
renciam os diversos métodos descritos na 
literatura: i) como utilizar as diversas confor- 
mações da proteína: ii) como gerar e selecio- 
nar as conformações da proteína: e Ui) como 
ordenar os compostos considerando os atra- 
camentos dos ligantes nas diversas confor- 
mações da proteína. 

Com relação ao modo de utilização das 
conformações, a forma mais simples e usual 
é considerar cada conformação da proteína 
como rígida e realizar um estudo de atraca- 
mento molecular para cada conformação se- 
lecionada, embora o custo computacional 
cresça proporcionalmente ao número de 
conformações da proteína selecionadas. Uma 
metodologia de pré-seleção das conforma- 
ções que reduza significativamente o seu nú- 
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mero, sem grande perda da informação sobre 
a flexibilidade do receptor (por exemplo, 
através de agrupamento por semelhança ou 
construção de dusters), é algo extremamen- 
te desejável. 

Outra forma possível é o uso de grades de energia 
(Figura 8-9) combinadas. Os métodos de grade de 
energia combinada consistem na combinação ou junção 
de diversas estruturas/conformações rígidas de uma 
mesma proteína, em uma única grade de energia. A 
combinação das grades de energia pode ser realizada 
de várias maneiras. Geralmente, a média ou a média 
ponderada entre estas grades é calculada, gerando 
uma única grade. 0 programa DOCK foi o primeiro a 
implementar conjuntos de grades de energia para a in- 
clusão da flexibilidade da molécula receptora. 

Osterberg e colaboradores compararam vários 
métodos de grade combinada no programa AutoDock. 
Um deles utilizava a média entre as grades, outro o va- 
lor mínimo e os outros dois utilizavam médias ponde- 
radas. Os resultados obtidos demonstram que a 
utilização de médias ponderadas é melhor do que a uti- 
lização da média e do mínimo. 0 programa FlexE apre- 
senta um método semelhante, onde a principal 
diferença reside na forma de tratamento das regiões 
dis5imilares das estruturas do receptor. Os resultados 
obtidos pelo programa FlexE são de qualidade similar à 


melhor solução encontrada nos experimentos de atra- 
camento onde cada ligante é atracado em cada uma 
das conformações representativas da flexibilidade da 
proteína. 

A metodologia de grade é uma estratégia utilizada 
para aproximar o cálculo das energias eletrostáticas e 
de van der Waals (outros termos da função energia 
também podem ser utilizados), reduzindo drastica- 
mente o custo computacional do cálculo da energia de 
interação intermolecular proteína-ligante. Uma grade 
de energia pode ser representada como uma malha de 
pontos tridimensional, em que cada ponto armazena o 
potencial total eletrostático e de van der Waals. Os va- 
lores da energia são obtidos através da interpolação 
dos valores armazenados nos oito pontos que definem 
uma célula cúbica da grade. 0 espaçamento entre os 
pontos da grade (discretização, r) determina o nível da 
aproximação: quanto maior a discretização, menor a 
precisão no cálculo da energia de interação intermole- 
cular. 0 tamanho e formato da grade de energia é dado 
em função das suas três dimensões (dx, dY e dz). 0 
centro da grade de energia pode ser definido de diver- 
sas formas, como por exemplo centralizar no átomo 
de um resíduo de aminoácido específico do sítio ativo 
ou de um ligante de referência. Exemplos de programa 
que utilizam grade de energia são GOLD, Glide, 
AutoDock Vina e DockThor. 







Figura 7-9: Atracamento molecular utilizando conjunto de conformações (adaptado de Guedes e 
colaboradores, 2013). 
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Figura 8-9: Representação de uma grade de energia cúbica centrada no sítio de Ligação do 
inibidor indinavir da protease do HIV-1, com as dimensões de cada eixo (dx, dY e dz). Em 
destaque está representada a indexação dos oito pontos de uma célula e a discretização da 
grade (r). As energias de interação são obtidas da interpolação dos valores, de cada termo da 
energia, prá-armazenados nos oitos pontos da célula cúbica que contém um determinado 
átomo do ligante. 


Com relação à geração das conforma- 
ções, as técnicas de simulação de dinâmica 
molecular e modos normais são as mais utili- 
zadas. Associada ao uso destas técnicas, está 
a importante questão de qual a amplitude de 
movimentos do receptor proteico é necessá- 
ria considerar. Ou seja, se estamos tratando 
da flexibilidade local de um receptor (como o 
movimento de uma alça) ou de movimentos 
de mais larga escala (como movimentos de 
domínios da proteína). Esta importante ques- 
tão está diretamente relacionada com a ca- 
pacidade de amostragem do espaço de 
configurações do receptor por parte da técni- 
ca de simulação utilizada. 

Um exemplo de metodologia que usa a técnica de 
dinâmica molecular é o Retaxed CompLex Scheme, que 
utiliza simulações longas de dinâmica molecular consi- 
derando todos os átomos do sistema ligante-proteína- 
solvente. A escala de tempo das simulações variam de 
2 ns a 0,5 ^s. Uma questão importante a respeito des- 
ta técnica é se as simulações devem ser realizadas 
com a proteína na sua forma apo (não complexada a 


um ligante) ou na sua forma holo (complexada a um li- 
gante). Resultados descritos na literatura indicam que 
simulações na forma holo produzem resultados me- 
lhores, dando uma descrição mais adequada do sítio de 
ligação. Na realidade, para não se obter um viés para 
um determinado modo de ligação de um ligante espe- 
cífico, a estratégia recomendada é a de se realizar vári- 
as simulações com ligantes distintos. Estes modos de 
ligação podem ser obtidos de resultados experimentais 
ou a partir de resultados obtidos de simulações de 
atracamento molecular considerando vários ligantes e 
o receptor rígido. 

A questão do número de conformações 
e de como selecionar aquelas representativas 
do processo em estudo é ainda uma questão 
em aberto e possivelmente dependente do ti- 
po de sistema avaliado. Uma das metodologi- 
as mais populares busca capturar a 
diversidade estrutural presente na simulação 
utilizando o agrupamento de configurações a 
partir do valor de RM5D ( Root-Mean-Square 
Deviatiorí). É importante ressaltar que, neste 
processo, ao invés de se utilizar a estrutura 


204 


9. Atracamento Molecular 



de toda a proteína, são normalmente utiliza- 
das as informações relativas a alguns resídu- 
os chave no sítio de ligação da proteína. 
Normalmente, por questões associadas ao 
custo computacional, procura-se selecionar 
um conjunto entre 5-10 conformações. 

A questão de como ordenar os com- 
postos levando-se em conta os atracamentos 
do ligante nas diversas conformações da 
proteína também não é uma questão fácil de 
ser respondida. Uma solução é simplesmente 
utilizar a média das energias dos ligantes com 
relação às múltiplas conformações da proteí- 
na. Outra possibilidade é considerar a me- 
lhor/menor energia obtida por um ligante ao 
interagir com determinada conformação. 
Existem estudos na literatura que mostram a 
importância de se considerar ligantes que se 
ligam fortemente a um conjunto específico (e 
muitas vezes de baixa probabilidade de ocor- 
rência) de configurações da proteína. São jus- 
tamente estes casos os mais interessantes, 
pois abrem oportunidades de desenvolvimen- 
to de novos fármacos associados a modos de 
ligação não usuais. 

Outra abordagem utilizada é a reavalia- 
ção da energia de ligação utilizando metodo- 
logias mais sofisticadas. Um dos grandes 
problemas com esta técnica é o custo com- 
putacional das simulações de dinâmica mole- 
cular. Este problema se torna ainda mais 
importante quando estão envolvidos movi- 
mentos de larga escala da proteína. Nestes 
casos é possível que técnicas como DM ace- 
lerada, tais como Replico Exchange, metadi- 
nâmica e DM utilizando a aproximação para 
solvente implícito possam ser utilizadas para 
se obter uma melhor amostragem do espaço 
das configurações. 

0 uso das técnicas de Análise de Modos 
Normais e Análise de Componentes Principais 
(PCA, Principal Component Analysis ) para in- 
vestigar movimentos de larga escala de pro- 
teínas talvez sejam as melhores opções para 
obter uma boa amostragem de conformações 
em estudos de atracamento envolvendo a 
técnica de conjunto de conformações. 

A técnica de Análise de Modos Normais procura ca- 
racterizar os modos de vibração de baixa frequência, 


os quais se espera estarem associados aos movimen- 
tos funcionais de larga escala da proteína. A partir da 
diagonalização da matriz Hessiana, obtida das deriva- 
das segundas da função energia potencial associada a 
um campo de força clássico, obtém-se as direções de 
movimento dos átomos (associadas aos autovetores 
da matriz) e as frequências de vibração (associadas aos 
respectivos autovalores). Versões mais simplificadas 
da técnica de modos normais têm sido desenvolvidas 
nos sentido de permitir o uso da técnica em sistemas 
muito grandes. 0 método conhecido como Elastic 
Normal Mode simplifica o sistema molecular de tal 
modo que apenas os carbonos alfa da proteína, conec- 
tados por potenciais harmônicos, sejam considerados. 

Já a técnica PCA utiliza as configurações geradas 
por uma DM para identificar os graus de liberdade co- 
letivos da proteína. Esta técnica também implica na di- 
agonalização de uma matriz, nesta caso, a matriz de 
correlação dos movimentos dos átomos da proteína, 
sendo que os autovetores associados aos maiores au- 
tovalores se referem aos movimentos de mais larga 
escala. 

Dependendo do sistema em estudo é 
desejável que seja feita uma combinação das 
técnicas anteriormente descritas. Neste sen- 
tido, conformações geradas utilizando a téc- 
nica de Modos Normais para refletir 
movimentos amplos da proteína podem servir 
de base para estudos de DM relativamente 
curtas. Estas irão refletir o arranjo local das 
cadeias laterais associado àquela região do 
espaço de configurações. 

Estas configurações utilizadas no con- 
texto da técnica de conjunto de conformações 
podem ser investigadas com métodos de 
atracamento baseados no mecanismo de en- 
caixe induzido ou em uma abordagem utili- 
zando grades de energia combinada. 

9.4. Triagem em larga escala 

Cada vez mais as indústrias farmacêuti- 
cas e os grupos de pesquisa que trabalham na 
busca de moléculas candidatas a novos fár- 
macos necessitam de metodologias mais rá- 
pidas, eficazes e de baixo custo. Neste 
cenário, a triagem virtual ( virtual screening, 
em inglês) tem se destacado como uma im- 
portante ferramenta na busca de compostos 
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promissores. A triagem virtual consiste em 
analisar computacionalmente uma grande 
quantidade de ligantes com o objetivo de se- 
lecionar, de acordo com algum critério pre- 
definido, compostos provavelmente mais ati- 
vos frente a determinado alvo farmacológico 
(ou seja, um receptor). Esta abordagem pode 
ser empregada para complementar os resul- 
tados obtidos pela triagem experimental 
(high-throughput screening , em inglês). 

A busca dos ligantes para o estudo de 
triagem virtual pode ser feita em bancos de 
estruturas de compostos disponíveis através 
de portais oniine, tais como ZINC, BindingDB, 
PubChem, SuperNatural e ChEMBL. Nestes 
bancos, a busca pode ser feita utilizando pro- 
priedades físico-químicas definidas pelo 
usuário, como número de ligações rotacioná- 
veis e logP ou, em alguns deles, desenhar o 
fragmento desejável na estrutura dos ligan- 
tes. Estes filtros são comumente utilizados 
com o objetivo de reduzir o número de com- 
postos a serem analisados pela triagem vir- 
tual, especificando o perfil desejado para 
estes ligantes. Após selecionar a lista de li- 
gantes para serem extraídos, geralmente o 
banco fornece uma tabela com as principais 
propriedades químicas dos compostos. Caso 
seja necessário, como no caso da construção 
de uma biblioteca de ligantes própria do 
usuário, é possível usar programas que fil- 
tram e quantificam tais propriedades, como o 
FAF-Drugs. 

A triagem virtual pode ser feita utilizan- 
do diversas metodologias que, de forma ge- 
ral, agrupam-se naquelas baseadas na 
estrutura do receptor ( structure-based) e na- 
quelas baseadas na estrutura do ligante 
(iigand-based) . 0 método baseado na estru- 
tura é mais utilizado quando a estrutura tridi- 
mensional da molécula receptora está 
disponível com boa qualidade. Nesta metodo- 
logia, é realizado um estudo de atracamento 
molecular de todos os ligantes previamente 
selecionados, ao invés de apenas uma molé- 
cula. É possível, assim como no estudo de 
atracamento molecular tradicional, conside- 
rar a flexibilidade do receptor diretamente 
pelo programa de atracamento ou utilizar um 


conjunto de conformações da molécula re- 
ceptora (ensembie docking). Entretanto, o 
custo computacional aumenta significativa- 
mente ao se incluir a flexibilidade do receptor 
em estudos de triagem virtual. 

Quando não é possível obter a estrutura 
tridimensional do receptor, ainda que por téc- 
nicas sofisticadas de predição de estruturas 
de macromoléculas, então o método baseado 
na estrutura do ligante é empregado. Esta 
abordagem consiste na análise de similarida- 
de de propriedades estruturais e físico-quími- 
cas de compostos ativos e inativos. Duas 
abordagens importantes incluem o estudo da 
relação estrutura-atividade (5AR, 
s tructure-activity reiationship ou QSAR, 

quontitotive s tructure-activity reiationship) e 
a modelagem farmacofórica. 

Apesar de a triagem virtual baseada em 
estrutura ser uma técnica amplamente utili- 
zada, o protocolo escolhido pelo pesquisador 
necessita ser validado para aumentar a confi- 
abilidade dos resultados. Primeiramente, é 
preciso avaliar se o método de busca e a fun- 
ção de avaliação escolhidos são capazes de 
reproduzir o modo de ligação experimental de 
compostos originalmente complexados com o 
receptor alvo. 

Outra análise que deve ser feita é a ca- 
pacidade de o protocolo diferenciar as molé- 
culas ativas das inativas, conhecidas como 
casos falso-positivos. Esta validação é de 
grande importância na triagem virtual, uma 
vez que auxilia a reduzir o número de molé- 
culas inativas, limitando assim o número de 
falsos-positivos. 

0 cálculo da proporção de moLáculas ativas frente 
ao número de inativas presentes em um conjunto de Li- 
gantes com dados de atividade experimental previa- 
mente conhecidos pode ser feito pelo fator de 
enriquecimento (Enrichment Factor, EF). As moLáculas 
presumidamente inativas ( decoys ) possuem proprie- 
dades físicas similares (tais como massa molecular, 
número de ligações rotacionáveis, logP, número de 
aceptores/doadores de Ligações de hidrogênio) às ati- 
vas, entretanto distintas topologicamente (ou seja, exi- 
bem diferentes estruturas químicas). Para validar a 
função de avaliação, utiliza-se um conjunto de ligantes 
formado por essas moléculas inativas e por um núme- 
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ro geralmente pequeno de compostos ativos conheci- 
dos. O estudo de atracamento molecular é realizado, e 
então o EF é usado para medir a capacidade da função 
ordenar, nas primeiras posições, determinada fração 
de compostos ativos frente aos inativos. 

0 desempenho dos diferentes protocolos de atra- 
camento molecular varia significativamente entre os 
estudos de validação realizados, sendo influenciado di- 
retamente pela metodologia empregada bem como 
pela composição do conjunto de de dados utilizado 
(classe dos receptores e perfil dos ligantes incluídos). 
Quando o número de compostos ativos e inativos á si- 
milar, o método AUC (areo under the receiver operating 
characteristic) é mais apropriado para avaliar o de- 
sempenho do protocolo de triagem virtual. 

Os compostos selecionados, conhecidos 
como hits, são encaminhados para as etapas 
de síntese química (no caso de compostos 
apenas planejados ou não disponíveis para 
compra) e estudos de atividade farmacológica 
(testes in vitro e in vivo). 

9.5. Considerações finais 

A descoberta e planejamento de novos 
fármacos é um processo muito caro e muito 
demorado. Para levar um novo fármaco ao 
mercado são necessários de 10 a 20 anos e o 
custo estimado é de cerca de 8ÜÜ milhões de 
dólares. Abordagens in silico que possam re- 
duzir estes custos e acelerar o processo de 
descoberta e planejamento de novos fárma- 
cos são extremamente bem vindas e neces- 
sárias. É importante ressaltar que já existem 
diversos exemplos de moléculas que foram 
descobertas/otimizadas utilizando técnicas 
computacionais e que estão na fase de ensai- 
os clínicos ou que já foram aprovadas para 
uso terapêutico. 

É possível prever que, no futuro, meto- 
dologias computacionais mais sofisticadas 
terão um papel cada vez mais destacado em 
estratégias de planejamento racional de fár- 
macos. Neste sentido, alguns aspectos asso- 
ciados às metodologias de atracamento 
molecular discutidas neste capítulo necessi- 
tam de avanços teórico/metodológicos para 
que se consiga obter uma melhor previsão 
das constantes de afinidade receptor-ligante. 


Alguns destes aspectos são a consideração 
da rugosidade e forma da superfície de ener- 
gia associada ao complexo receptor-ligante, a 
estimativa das entropias associadas ao pro- 
cesso de ligação, a consideração não só de 
múltiplas conformações (flexibilidade) do re- 
ceptor mas também de múltiplos modos de 
ligação do ligante, a consideração das mu- 
danças na estruturação das moléculas de 
água no sítio receptor e da solvatação/de- 
solvatação do ligante e a consideração de 
efeitos de mudança de estados de protonação 
de resíduos do sítio receptor durante o pro- 
cesso atracamento ligante-receptor. 

9.6. Conceitos-chave 

Algoritmo: conjunto ordenado de instruções 

para resolver determinado problema. 

Atracamento: método para prever o modo de li- 
gação e a afinidade de ligação de uma 
macromolécula receptora com outra mo- 
lécula ligante (seja uma outra macromo- 
lécula ou uma molécula ligante pequena). 

Desenho racional de fármacos baseado em es- 
trutura: área de pesquisa que abrange os 
métodos computacionais que utilizam in- 
formações da estrutura tridimensional da 
molécula receptora para descoberta e/ou 
desenvolvimento de novos fármacos. 

Encaixe induzido: modelo que sugere a existên- 
cia de mudanças conformacionais na mo- 
lécula receptora e no ligante devido à 
formação do complexo receptor-ligante. 

Função de avaliação: função de pontuação que 
tem por objetivo quantificar a qualidade 
das soluções obtidas no atracamento mo- 
lecular. 

Ligante: molécula que interage no sítio de liga- 
ção de uma macromolécula para formar 
um complexo, podendo induzir ou bloque- 
ar determinada resposta biológica. 

Método de busca: algoritmo utilizado pelo atra- 
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camento molecular para encontrar os mo- 
dos de ligação do ligante no sítio receptor. 
Explora os graus de liberdade translacio- 
nais, rotacionais e conformacionais. 

pKa: logaritmo negativo da constante de acidez 
ou constante de dissociação ácida (pK a - 
-logiQ. Mede a força de um ácido em so- 
lução. 

Receptor: macromolécula que possui um sítio de 
ligação de interesse. 

Reconhecimento molecular: mecanismo pelo 

qual uma molécula se liga a outra com 
perfil complementar, formando um com- 
plexo. 

Triagem virtual: metodologia de atracamento 
molecular em larga escala, através da qual 
dezenas, centenas ou milhares de ligantes 
são avaliados no sítio de ligação de um 
receptor. 
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10.1. Introdução 

□ dicroismo circular (CD) é uma técnica 
espectroscópica utilizada para estudar uma 
grande variedade de moléculas quirais, tais 
como fármacos, polímeros e biopolímeros, 
em solução. Particularmente no caso das 
proteínas o CD, juntamente à cristalografia de 
raios-X (capítulo 13), o RMN (capítulo 12), o in- 
fravermelho (capítulo 11) e métodos como a 
modelagem comparativa (capítulo 7) e a dinâ- 
mica molecular (capítulo 8), exerce importan- 
te papel na busca pelo conhecimento da 
estrutura e função nucleicas. Tais informa- 
ções, por sua vez, são essenciais na busca 
por novos compostos com potencial terapêu- 
tico. 

Para sistemas enovelados e estrutura- 
dos tridimensionalmente, como enzimas e 
proteínas globulares, o CD é uma técnica de 
baixa resolução quando comparado à RMN e 
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cristalografia de raios-X. Isto ocorre porque o 
CD, ao contrário destes métodos, não possui 
resolução atomística, ou seja, não é capaz de 
identificar átomos específicos das moléculas 
em estudo. 

No entanto, enquanto estruturas desor- 
denadas (ou seja, desenoveladas, forma ado- 
tada por aproximadamente a metade das 
proteínas de mamíferos) tornam-se em 
grande medida impróprias para estudos de 
RMN e cristalografia de raios-X, o CD ainda é 
capaz de lidar com suas estruturas. Além 
disso, estudos de CD podem ser realizados 
em solução, em condições bem próximas das 
fisiológicas, fazendo deste método uma fer- 
ramenta ideal para investigar as interações 
entre moléculas envolvidas nos mais diversos 
processos biológicos. 

Por definição, espectroscopia nada mais 
é do que o levantamento de dados físico-quí- 
micos de um determinado sistema através da 
transmissão, absorção ou reflexão da energia 
radiante incidente. No caso do CD, a energia 
incidente é a ultravioleta comumente na faixa 
do UV próximo, 380 a 200 nm. Assim, o es- 
pectro de CD é gerado pela diferença na ca- 
pacidade de absorção dos componentes 
esquerdo e direito da luz circularmente pola- 
rizada (mais detalhes adiante) por moléculas 
quirais que possuem átomos de carbono as- 
simétricos e, consequentemente, diferentes 
atividades ópticas. 

Esta capacidade de absorção de molé- 
culas quirais está diretamente ligada às dife- 
renças nos seus coeficientes de absorbância. 
Assim, diferentes moléculas ou partes delas 
possuem CD em regiões específicas do es- 
pectro. 

Em instrumentos de laboratório, espec- 
tros de CD são normalmente registados no 
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ultravioleta (UV), tipicamente em comprimen- 
tos de onda variando de 180 a 260 nm. Além 
desta região, várias fontes de radiação sín- 
crotron estão disponíveis e possibilitam a ob- 
tenção de espectros de CD com intervalos de 
comprimento de onda consideravelmente 
maiores. Luz síncrotron é a radiação eletro- 
magnética produzida por elétrons de alta 
energia através de um acelerador de partícu- 
las. Essa luz abrange uma ampla faixa do es- 
pectro eletromagnético, incluindo os raios-X, 
luz ultravioleta e infravermelha, além da luz 
visível. 

De maneira geral, os espectros de CD 
podem ser utilizados para diversos tipos de 
estudos, incluindo-se: 1) enovelamento e es- 
trutura 2 ária de proteínas: 2) estrutura de pro- 
teínas de membrana inseridas em bicamadas 
lipídicas; 3) interação entre moléculas: 4) in- 
terações entre macromoléculas, destacada- 
mente proteínas, ácidos nucleicos e 
carboidratos: 5) monitoramento da integrida- 
de estrutural de moléculas sob aquecimento: 
6) quantificação de alterações conformacio- 
nais; 7) caracterização de domínios de proteí- 
nas, a qual pode ser empregada em 
comparações com modelos gerados compu- 
tacionalmente; 8) análise de carboidratos: 9) 
cinética rápida de enovelamento de proteínas 
e montagem de complexos macromolecula- 
res, dentre outros. 

Além do CD convencional (também cha- 
mado de eletrônico, aquele que ocorre na fai- 
xa do UV), também existem fenômenos de 
dicroismo circular que ocorrem na região do 
infravermelho, sendo este tipo de fenômeno 
chamado de dicroismo circular vibracional 
(VCD). Ele ocorre normalmente entre 3300 e 
8ÜÜ cm -1 , e uma de suas principais vantagens 
em relação ao CD é que, embora as transi- 
ções eletrônicas tenham uma pequena dife- 
rença entre o estado fundamental e o nível 
excitado, nas transições vibracionais esta di- 
ferença é bem maior do que nos espectros 
contínuos, que possuem sinais distribuídos 
continuamente em uma certa faixa espectral. 
Assim, sinais com valores (comprimento de 
onda) distintos são observados. 

0 benefício experimental do VCD é que 


ligantes, como alguns carboidratos, possuem 
um sinal de CD muito menor quando compa- 
rado aos provenientes de uma proteína. As- 
sim, o VCD pode ser utilizado para 
monitorizar a interação de proteínas com 
açúcares diretamente e sem a necessidade de 
manipulação matemática dos espectros. 

10.2. Luz polarizada 

Para o estudo do CD, um importante 
conceito que devemos ter em mente é o da 
luz polarizada. A luz convencional, como a luz 
solar e a luz de lâmpadas residenciais, são 
exemplos de luz não polarizada, já que elas 
emitem radiação que se propaga em todos os 
planos. Isso ocorre porque a luz branca é 
composta por ondas eletromagnéticas que 
vibram em diversos planos perpendiculares à 
direção da propagação da luz (Figura 1A-10). 
Por outro lado, a luz polarizada é aquela que 
possui vibração em apenas um plano (Figura 
1B-10). 

No caso do CD, a luz utilizada é circular- 
mente polarizada (Figura 2-10), o que nada 
mais é do que a combinação de duas ondas 
linearmente polarizadas, uma vertical e outra 
horizontal, de mesma amplitude. 

A diferença de absorção da luz circular- 
mente polarizada à direita e à esquerda dá 
origem ao espectro de CD. Assim, temos que 
CD = AD - AE, onde AD representa a absorção 
da luz circularmente polariza à direita e AE a 
absorção da luz circularmente polariza à es- 
querda. 




Figura 1-10: Representação planar da luz não 
polarizada (A) e polarizada (B). 
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Figura 2-1 ü: Representação planar da luz 
circularmente polarizada. 

10. 3. Quiralidade 

A quiralidade significa a não sobreposi- 
ção de sua própria imagem com aquela proje- 
tada em um espelho ou, em outras palvras, 
são imagens que não admitem plano de sime- 
tria. Um exemplo clássico de quiralidade é a 
nossa mão: se colocarmos uma delas diante 
de um espelho, ela produzirá uma imagem di- 
ferente dela própria. A imagem gerada da 
mão direita será a da mão esquerda e vice- 
versa. Contudo, as mãos não são sobreponí- 
veis, ou seja, quando sobrepostas não se tor- 
nam equivalentes (Figura 3-10). Esta 
característica é apresentadas por algumas 
moléculas, que são chamadas assim de isô- 
meros ópticos ou enantiômeros (ver capítulo 
2). 

No CD, quando a luz polarizada passa 
através de uma substância quiral, seus com- 
ponentes podem ser resolvidos e absorvidos 
com intensidades diferentes. A diferença da 
absorbância, AA, entre a luz polarizada para a 
direita e para a esquerda, A A - AD - AE, está 
relacionada com seus respectivos coeficien- 
tes de absorbância, As = eD - eE, onde eD e s E 
são os coeficientes molares de adsorção da 
luz circularmente polarizada à direita e à es- 



Figura 3-10: Representação da imagem 

especular (A) de dois enantiômeros do 
aminoácido alanina (B). 


querda, respectivamente. 

Adicionalmente, sabemos pela lei de 
Lambert-Beer que AA = As cl, onde c repre- 
senta a concentração da amostra e l o com- 
primento do percurso óptico. Assim, a 
resultante de todas essas características da- 
rão origem ao espectro de CD de uma dada 
molécula. 

10.4. Instrumentação 

Um espectofotômetro de CD pode ser 
esquematizado segundo apresentado na Fi- 
gura 4-10. A luz da fonte (L) é dispersa no 
monocromador (MC), produzindo uma banda 
estreita de comprimentos de onda que passa 
através de um polarizador linear (PL). 



L MC PL MF A FM Resultado 

Figura 4-10: Representação esquemática de 
um espectrofotômetro de CD. Fonte de luz 
(L); Monocromador (MC); Polarizador linear 
(PL); Modulador fotoelástico (MF): Amostra 
(A); Fotomultiplicador (FM). Figura adaptada 
da Internet. 

O polarizador divide o feixe monocro- 
mático não polarizado em dois feixes linear- 
mente polarizados. Assim, um dos dois feixes 
linearmente polarizado passa pelo modulador 
fotoelástico (MF), que consiste de uma placa 
transparente e opticamente isotrópica, ou 
seja, de mesmo índice de refração, ligada a 
um cristal de quartzo. Quando um campo 
elétrico alternado é aplicado, a luz que emer- 
ge a partir dos interruptores do MF volta com 
a frequência do campo elétrico aplicado. 

Se a amostra (A) possui sinal de CD, a 
quantidade de luz absorvida varia periodica- 
mente com a polarização da luz incidente e, 
portanto, a intensidade de luz que atinge o fo- 
tomultiplicador (FM) apresenta variações de 
intensidade sinusoidal na frequência do cam- 
po aplicado ao MF. Portanto, o sinal de saída 
do fotomultiplicador é constituído por um si- 
nal de corrente elétrica alternada sobreposto 
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a um sinal de corrente elétrica contínua. 

Posteriormente, o componente de cor- 
rente alternada é filtrado e amplificado. A re- 
lação entre a corrente alternada e o 
componente de corrente contínua é direta- 
mente proporcional ao dicroismo circular da 
amostra, sendo esta relação registada em 
função do comprimento de onda. 

10.5. Aplicações a biomoléculas 

Proteína s 

Na faixa do UV distante, os sinais (ou 
bandas) relacionadas à ligação peptídica do- 
minam o espectro de CD de proteínas. Este 
cromóforo apresenta duas transições eletrô- 
nicas na faixa do UV distante: 

i) transições n—>7c*, por volta de 220 
nm; 

ii) transições 7r— >77-*, por volta de 190 nm 
para amidas secundárias (ligação peptí- 
dica para todos os aminoácidos, exceto 
a prolina), e em torno de 2ÜÜ nm para 
amidas terciárias (ligação peptídica en- 
volvendo prolina). 

A transição n— >7r* possui coeficiente de 
absorção fraco, embora dê origem a bandas 
fortes de CD. Já a transição tt— > 7r* está associ- 
ada à elevada absorbância e fortes bandas de 
CD. Devido ao forte momento dipolar de tran- 
sição eletrônica, as transições 7 r— r* em liga- 
ções peptídicas vizinhas interagem umas com 
as outras, dando origem a duas ou mais ban- 
das de CD. 

As cadeias laterais aromáticas dos resí- 
duos de fenilalanina, tirosina e triptofano pos- 
suem fortes bandas de absorbância no UV 
distante, contribuindo para o espectro de CD 
de proteínas. Na maioria dos casos, tal contri- 
buição é pequena em comparação com as dos 
aminoácidos mais numerosos. Porém, para 
algumas proteínas, as faixas do CD aromático 
são claramente discerníveis. 

No UV próximo, o espectro de CD de 
proteínas é dominado pelas transições eletrô- 
nicas dos grupos aromáticos e ligações dis- 
sulfeto. As bandas das cadeias laterais 


aromáticas são relativamente bem definidas, 
e possuem uma estrutura característica de- 
vido a efeitos vibracionais. Em proteínas com 
um pequeno número de cadeias laterais aro- 
máticas, as bandas são frequentemente atri- 
buídas a um dos três tipos de resíduos 
aromáticos e, em alguns casos, através de 
mutagênese sítio dirigida, a resíduos específi- 
cos da sequência proteica. A histidina, apesar 
de ser um aminoácido aromático, possui um 
grupamento imidazólico que apresenta sinal 
de CD abaixo de 22ünm e que, em grandes 
concentrações pode até atrapalhar as medi- 
ções. 

As faixas de CD das Ligações dissulfeto são nor- 
malmente distinguíveis das faixas de CD aromáticas, já 
que são menos definidas. Em proteínas que não possu- 
em aminoácidos aromáticos, não há bandas de CD em 
comprimentos de onda acima de 300 nm. Muitos gru- 
pos prostéticos, coenzimas, íons de metais de transi- 
ção e outros ligantes apresentam bandas de 
absorbância nesta faixa de comprimento de onda, e 
estas estão associadas a bandas de CD em complexos 
com proteínas. 

Os diferentes tipos de estrutura 2 ária de 
proteínas (ver capítulo 2) possuem espectros 
de CD característicos, estabelecidos a partir 
de modelos de oligo- e polipeptídios com es- 
trutura 2 ária conhecida. A Figura 5-10 apre- 
senta os espectros de CD de hélices a, folhas 
P e estruturas irregulares (desordenadas). 

Hélices a apresentam o espectro de CD 
mais distinto e mais forte, com duas bandas 
negativas de grandeza comparável por volta 
de 222 e 208 nm, além de uma forte banda 
positiva com sua máxima em torno de 190 
nm. 

A banda em torno de 222 nm resulta 
das transições do grupo amida, en- 

quanto que as bandas por volta de 208 e 190 
nm surgem das transições 7r— > tt* do mesmo 
grupo. Estas transições ?r— > tt* estão relacio- 
nadas a grupos amida mantidos em uma geo- 
metria helicoidal bem definida. 

As interações entre os momentos dipo- 
lares de transição em um arranjo helicoidal 
dão origem às três bandas de absorbância, 
uma a 208 nm, polarizada paralelamente ao 
eixo da hélice, e duas bandas a 190 nm, pola- 
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180 200 220 240 260 280 

Comprimento de onda (nm) 

Figura 5-1 ü: Espectros de CD de estruturas 
do tipo a-hélices, folhas-p e estruturas 
irregulares. 

rizadas em duas direções perpendiculares ao 
eixo da hélice. Para a hélice à direita, a banda 
paralela está associada a uma banda de CD 
negativa a 208 nm, e as bandas perpendicula- 
res com a uma banda positiva a 190 nm. 

0 CD de uma hélice a é, em sua maioria, 
independente do solvente e da sequência de 
aminoácidos. Resíduos aromáticos (Phe, Tyr e 
Trp) podem modificar o espectro de CD de 
uma hélice a, especialmente se eles constitu- 
em uma fração considerável dos resíduos da 
proteína. Em homopolímeros de aminoácidos 
aromáticos, o espectro de CD de uma hélice a 
é tão distinto que se torna irreconhecível. 

0 CD de folhas p é bem distinto daquele 
observado para hélices a, apresentando ape- 
nas uma banda negativa de máxima absor- 
bância em 217 nm e uma banda positiva na 
região entre 195-2ÜÜ nm como característi- 
cas (Figura 5-10). 

0 valor absoluto da razão entre a elipticidade do 
máximo positivo a 197 nm e o máximo negativo a 217 
nm amplia-se com o aumento de torção da folha, e é 
maior para folhas paralelas do que para as folhas anti- 
paralelas torcidas. 

Todos os modelos de polipeptídios com 
estruturas irregulares (desordenadas) possu- 
em uma forte banda negativa por volta de 


200 nm (Figura 5-10). Porém, alguns possu- 
em uma banda positiva em comprimentos de 
onda maiores e outras um ombro negativo 
também em comprimentos de onda maiores. 

Carboidratos 

0 CD tem aplicações importantes no 
estudo de carboidratos, embora estes sejam 
mais limitadas do que para as proteínas e 
ácidos nucleicos. Dos cromóforos comuns 
aos carboidratos, apenas o grupo amida ( 
açúcares N-acetilados) e grupos carboxila ( 
ácidos urônicos) possuem bandas de CD aci- 
ma de 2ÜÜ nm. Grupamentos éter, hidroxila, 
acetal e cetal apresentam suas bandas de CD 
próximas do limite de detecção dos espec- 
trofotômetros de CD convencionais, em torno 
de 190 nm. Transições de alta energia são es- 
tudadas apenas em instrumentos à vácuo, 
mas sofrem fortes interferências dos solven- 
tes, fazendo com que tais estudos sejam li- 
mitados a filmes finos de sólidos. 

Monossacarídeos têm sido extensiva- 
mente investigados, e algumas correlações 
conformacionais dos anéis podem ser extraí- 
das em regiões do espectro de CD por volta 
de 170 nm. Mais uma vez, tais medições são 
limitadas, já que normalmente só podem ser 
feitas em CDs ligados a luz de síncrotron e 
também devido a interferência dos solventes. 

0 CD também tem sido bastante utiliza- 
do para estudo de carboidratos complexos 
como glicosaminoglicanos, heteropolissaca- 
rídeos compostos por um açúcar aminado (D- 
glicosamina ou D-galactosamina) unido por 
ligação glicosídica a um ácido urônico (D-gli- 
curônico ou L-idurônico). Espectros de CD pa- 
ra diferentes glicosaminoglicanos podem ser 
observados na Figura 6-10. 

As características de espectros de gli- 
cosaminoglicanos provêm predominante- 
mente das transições eletrônicas n—>7 t* dos 
carboxilatos dos resíduos de ácido urônico e 
transições tz-^tz* dos cromóforos N-acetila 
dos resíduos de glicosamina. Em ambos os 
casos, a principal contribuição para as transi- 
ções vem dos elétrons dos átomos de oxigê- 
nio. Para o ácido urônico, envolvem a função 
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Comprimento de onda (nm) 

Figura 6-10: Espectro de CD de diferentes 
glicosaminoglicanos. C4S, condroitina 4- 
sulfatada; C6S, condroitina 6-sulfatada; DS, 
dermatam sulfato e heparina. 

éter, a ligação glicosídica e as hidroxilas, pro- 
duzindo uma banda positiva com valores má- 
ximos em torno de 190 nm. Para o grupo 
N-acetila e carboxilato, tem-se uma banda 
negativa com máximo em torno de 210 nm. 

Como dito anteriormente, o CD pode ser 
utilizado para estudar a conformação de car- 
boidratos e, no caso de glicosaminoglicanos, 
os resíduos de ácido urônico (p-D-glicurônico 
e a-L-idurônico) possuem bandas no espectro 
de CD de sinais opostos. Podem-se observar 
na Figura 6-10 os espectros de CD para D5, 
C45 e C65, glicosaminoglicanos que contêm 
principalmente o ácido glicurônico. 

Os espectros destes glicosaminoglica- 
nos são peculiares, apresentando apenas uma 
larga banda negativa de máxima em torno de 
210 nm. D5 tem sua banda negativa ligeira- 
mente deslocada à esquerda, com máxima 
em torno de 207 nm. Tal fenômeno pode ser 
explicado pelo fato de que ele também con- 
tém ácido idurônico. Além disso, a ausência 
da banda positiva de máxima em 190 nm pode 
refletir diferenças nas ligações glicosídicas já 
que D5, C45 e C65 apresentam p-D-galacto- 
samina N-acetilada (ligação p), enquanto que 
a heparina contém a-D-glicosamina N-acetila- 


da e/ou N-sulfatada (ligação a). 

Ácidos nucleicos 

As bases purínicas e pirimidínicas de 
DNA e RNA são, em grande parte, responsá- 
veis pelo espectro de CD de ácidos nucleicos 
na faixa de comprimento de onda normal- 
mente estuda por espectrofotômetros con- 
vencionais, uma vez que os carboidratos e 
grupos fosfato não absorvem significativa- 
mente acima de 2ÜÜ e 180 nm, respectiva- 
mente. 

Neste tipo de macromolécula, o CD é 
empregado principalmente no estudo da ma- 
nutenção da geometria relativa das bases, 
pois cada uma possui um conjunto caracte- 
rístico de transições n^n* entre 180 e 3ÜÜ 
nm. 

Todas as cinco bases têm uma ou duas 
bandas de intensidade moderada, por volta de 
260 nm, e várias bandas mais intensas, entre 
180 e 200 nm. Além disso, cada base possui 
várias transições n— >7r* entre 180 e 300 nm, 
porém de pequena absorbância. Embora po- 
tencialmente fortes no CD, as faixas de n^n* 
não foram totalmente identificadas, sendo os 
espectros de CD de nucleosídeos, nucleotíde- 
os e polinucleotídeos dominados pelas con- 
tribuições 7T— >7T*. 

A estrutura 2 ária do DNA também pode 
ser estudada por CD (ver capítulo 2). A con- 
formação B-DNA, encontrada normalmente 
em solução aquosa, tem uma banda positiva 
próximo 275 nm e uma banda negativa de 
magnitude similar perto de 245 nm (Figura 
7A-10). Já a conformação A-DNA é favorecida 
pela adição de solventes orgânicos, geral- 
mente etanol. No UV próximo, a transição B 
— ► A é marcada por um aumento significativo 
na banda positiva e diminuição na amplitude 
da banda de máxima em 245 nm. Outra ca- 
racterística é a presença de uma forte banda 
negativa em torno de nm 210 (Figura 7B-10). 
0 C-DNA, por sua vez, apresenta banda inten- 
sa negativa por volta de 240 nm (Figura 7C- 
10). 

Com base no espectro de CD, atribui- 
ções a um dos grupos de estrutura 2 ária po- 


215 



10. Dicroismo Circular 




220 260 300 220 260 300 220 260 300 

Figura 7-10: Representação esquemática dos 
espectros de CD para as diferentes 
estruturas secundárias de DNA. 

dem ser feitas. Contudo, devido ao número 
considerável de subgrupos de estrutura 2 ária e 
à dependência desta da sequência de nucleo- 
tídeos, informações detalhadas sobre a con- 
formação do DNA não podem ser extraídas 
unicamente baseadas no espectro de CD. 

Lipídeos 

Aplicações de CD no estudo de lipídeos 
são raras, sendo sua mais frequente aplica- 
ção no estudo de proteínas de membrana em 
seu ambiente nativo, ou seja, inseridas na 
membrana. Porém, dois tipos de artefatos 
devem ser evitados. Suspensões de frag- 
mentos de membrana podem induzir fortes 
efeitos de espalhamento de luz. Adicional- 
mente, eles podem apresentar espalhamento 
preferencial da luz circularmente polarizada à 
esquerda e à direita. Tal fenômeno se com- 
porta como um sinal de CD, distorcendo o 
verdadeiro CD da proteína. 

Ainda, fragmentos de membrana tam- 
bém distorcem os sinais de CD devido a um 
efeito conhecido como Duysens’ flattening. 
Este efeito ocorre em amostras com uma 
distribuição não homogênea de cromóforos 
que estão associados com a fomação de mi- 
celas. Alguns métodos foram desenvolvidos 
buscando evitar tais dificuldades. Requerem, 
contudo, que a proteína de membrana seja 
transferida da sua membrana nativa para ve- 
sículas unilamelares que possuam, em média, 
apenas uma proteína por vesícula. Tais arte- 
fatos também podem ser evitados através da 
solubilização das proteínas em detergente 
não iônico, manobra esta que, contudo, pode 
induzir alterações conformacionais na proteí- 
na. 


10.6. Situações práticas 

Deconvolução espectral 

A deconvolução espectral é utilizada 
para a resolução e/ou decomposição de um 
conjunto de sinais sobrepostos nos seus 
componentes separados através de algorit- 
mos de ajuste de curva. Para a determinação 
da estrutura 2 ária de proteínas, o espectro 
original é decomposto nos componentes héli- 
ce a, folhas (3 e estruturas irregulares e com- 
parado a um banco de dados de proteínas 
com estrutura 2 árias conhecidas. 

No exemplo abaixo, o espectro de CD da 
albumina humana (Figura 8-10A) é decom- 
posto nas suas estruturas 2 arias componentes 
(Figura 8-1ÜB) e, a partir destes, a proporção 
de cada tipo de estrutura calculada, totali- 
zando 72% hélices a, 16% de folhas (3 e 12% 
de estruturas irregulares. 

Interação proteína-ligante 

Mudanças conformacionais sofridas por 
uma dada proteína após sua complexação a 
um determinado composto também podem 
ser determinadas por CD. Alterações na es- 
trutura 2 ária da proteína, promovidas por esta 
complexação, irão mudar o espectro de CD, 
de forma que algumas mudanças conforma- 
cionais podem ser detectadas. 

É importante ressaltar que espectros de 
CD deverão ser coletados para todos os 
componentes do sistema em estudo, isto é, 
para a proteína e para o ligante em suas for- 
mas livres e para o complexo proteína-ligan- 
te. A partir destas medidas pode-se realizar 
subtrações espectrais, isto é, CD prot&a 

-ligante 

CD ligante' A partir destes dados é possível, por 
exemplo, comparar a capacidade de diferen- 
tes ligantes em modificarem o conteúdo de 
estrutura 2 ária de uma determinada proteína 
receptora. Os espectros da proteína e da 
subtração serão deconvoluídos como descri- 
to no item anterior. 

No exemplo abaixo (Figura 9-10), pode- 
se observar o espectro da antitrombina hu- 
mana livre e complexada a um composto 
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Figura 8-10: Deconvolução espectral esquemática da albumina sárica humana. 


pentassacarídico, análogo da heparina de alta 
massa molecular empregada terapeutica- 
mente. Após as devidas subtrações espec- 
trais podemos determinar as mudanças 
induzidas pela ligação do pentassacarídeo à 
antitrombina, resultando em um aumento de 
6,6% no conteúdo de hélices a e uma diminui- 
ção de 2% no conteúdo de folhas (3 e 2,5% no 
conteúdo de estruturas desordenadas. 

CD e PCA 

A análise de componentes principais 
(PCA, Principal Component Anolysis) é um 
método matemático empregado para des- 
vendar padrões em um conjunto complexo de 
dados (neste caso espectros de CD) e extrair 
informações cruciais, eliminando assim possí- 
veis fontes de ruído. 

A combinação linear que extrai a variân- 
cia máxima dos dados é denominada de com- 
ponente principal. Uma vez que ela é 
encontrada, é removida e o processo repetido 
para identificar o próximo componente princi- 
pal. Isso se repete até que toda a variância 
dos dados seja explicada, fato que na prática 
não ocorre devido ao ruído residual. 

Na análise de PCA, os componentes re- 
presentam as dimensões subjacentes que re- 
sumem ou explicam um conjunto original de 
dados observados. Component loodings são 


os coeficientes de correlação entre as variá- 
veis e os fatores. Os components loodings ao 
quadrado indicam a percentagem de variância 
da variável original. Component scores re- 
presentam uma medida composta criada para 
cada observação em cada fator extraído da 
análise fatorial. 

A Figura 10-10 mostra que a análise 
matemática dos espectros de CD é eficaz na 
diferenciação de glicosaminoglicanos, hepari- 
na e seus derivados. As características estru- 
turais que são introduzidas nas heparinas de 



Figura 9-10: Espectro de CD da antitrombina 
humana (linha preta) e do complexo 
antitrombina:pentassacarídeo (linha azul). 
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Figura 10-10: Análise matemática dos espectros de CD de glicosaminoglicanos. (a e d) Looding 
piot. (b e e) Análise de cluster. (c e f) Matriz de correlação. U, heparina não-fracionada; E, 
enoxaparina; T, tinzaparina, N, nadroparina, G, gammaparina; DS, dermatam sulfato, C4S, 
condroitina 4-sulfatada; C6S, condroitina 6-sulfatada; r, coeficiente de correlação. Imagem 
extraída com permissão de Lima e colaboradores, Low molecular weight heparins: Structural 
differentiation by spectroscopic and multivariate approaches, Carbohydr. Polymers, 2011 , 85, 
9G3-9G9, 10. 1016/j. carbpol.2G11. 04.021. 

baixo peso molecular ao longo das reações de 
despolimerização química e enzimática, bem 
como diferenças nos tipos de ligação glicosí- 
dica, N-acetilação, padrão de N- e 0-sulfata- 
ção e composição monossacarídica resultam 
em características especificas nos seus es- 
pectros de CD que são facilmente diferencia- 
das pela análise matemática dos dados. 

Aquisição de um espectro de CD 

i) Evitar tampões quirais e que possuem 
forte absorção no UV, principalmente na 
faixa entre 180-260 nm; 

ii) Filtrar todas as soluções, inclusive a 
amostra a ser estudada, evitando assim 


a presença de partículas causadoras de 
espalhamento de luz; 

Ui) Antes de coletar o espectro para a 
amostra em estudo é importante cole- 
tar um branco que nada mais é que o 
espectro do tampão; 

iv) Em experimentos comparativos, usar 
sempre as mesmas condições experi- 
mentais, tais como temperatura, tam- 
pão utilizado, concentração dos 
componentes, comprimento do caminho 
óptico e resolução (ou seja, frequência 
de intervalos, em nm, na qual é feita a 
aquisição dos dados); 

v) Para proteínas, é importante coletar 
espectros em diferentes concentrações 
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e observar se há mudança nos sinais. 
Havendo mudanças, a proteína em es- 
tudo está agregando; 
vi) Para açúcares, é importante mantê- 
los na mesma forma catiônica, uma vez 
que diferentes contra-íons produzirão 
espectros distintos. 

10.7. Conceitos-chave 

Análise de componentes principais: ferramenta 
matemática que desvenda padrões em um 
conjunto de dados complexos. 

Coeficiente de absorbância: capacidade de um 
mol de uma dada substância em absorver 
luz em um determinado comprimento de 
onda. 

Dicroismo circular: é a medida da absorbância 
diferencial entre as duas rotações de luz 
circularmente polarizada por uma molécu- 
la assimétrica. 

Duysens' flattening: distribuição não homogênea 
de cromóforos em uma dada molécula. 

Enantiômeros: imagens especulares (isto é, ge- 
radas a partir da reflexão em um espelho), 
não sobreponíveis, de uma determinada 
molécula, que assim apresenta a proprie- 
dade de quiralidade. 

Lei de Lambert-Beer: é uma relação, determi- 
nada empiricamente, entre a luz absorvida 
por um determinado material e proprie- 
dades intrínsecas a este material. 

Quiralidade: propriedade de uma molécula não 
ser sobreponível a sua imagem especular. 

Vesículas unilamelares: Formas lipossomais 

constituídas por apenas uma bicamada 
fosfolipídica. 
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Número de onda (cm 1 ) 

Estrutura 3D da proteína prion de camundongo e seu 
espectro de infravermelho na região da amida I. 


11.1. Introdução 

11.2. Instrumentação 


Yraima Cordeiro 
Luís Maurício T. R. Lima 


mos IV próximo ao IV distante, respectiva- 
mente. Adicionalmente, a região compre- 
endida entre 4.ÜÜÜ e 4ÜÜ cm -1 (2.500 a 
25.000 nm) é denominada IV médio, e possui 
destaque nos estudos da estrutura 2 ária de 
proteínas. 


11.3. Vibrações de H 2 0 e 2 H 2 0 

11.4. Realizando medidas de IV 

11.5. Espectros de IV de proteínas 

11.6. IV e estrutura 2 ária 

11.7. Informações quantitativas 

11.8. Desvio de 2 H para 2 H 

11.9. Vantagens e limitações 

11.10. Conceitos-chave 


11.1. Introdução 

0 espectro eletromagnético é composto 
por diferentes tipos de radiações, dos raios 
gama (maior energia) às ondas de rádio (me- 
nor energia, Figura 1-11). Entre estes extre- 
mos de radiações, diversos tipos de ondas 
possuem aplicações ao estudo de biomolécu- 
las, como os raios-X (ver capítulo 13), o ultra- 
violeta (ver capítulo 10) e o infravermelho, 
assunto deste capítulo. 

A região do infravermelho (IV) no es- 
pectro eletromagnético (Figura 1-11) está 
compreendida entre aproximadamente 
14.ÜÜÜ cm -1 e 2ÜÜ cm -1 , indo do que chama- 


Viável 

| — | \ / M rr o-oitdas 

j3a1as gama RaiM ■ X ^ Ultravioleta Infravermelho ^ ^ Ondas de rãdip ^ 

I I 1 i 1 I I ■ I ■ ! I ! I I I I I— 

1CT 1D- 2 1Q Ú lü 2 Itf 1 IO 6 10 fl 1Q IS lü 1 * 
Comprimento de onda (nm) 

Figura 1-11: Esquema das diferentes regiões 
do espectro eletromagnético. Quanto maior o 
comprimento de onda, menor a energia da 
radiação. 

Medidas empregando IV vêm sendo 
aplicadas há décadas na análise e caracteri- 
zação de pequenos compostos orgânicos e, 
para tal, existem diversos livros texto dispo- 
níveis. Este capítulo se dedica, contudo, a 
aplicações mais recentes, focadas no estudo 
de biomacromoléculas. Mesmo que o princí- 
pio da técnica seja o mesmo, as diferenças 
em ordens de grandeza no número de átomos 
envolvidos trazem à tona uma série de parti- 
cularidades, que veremos em seguida. 

Quando incidimos uma determinada ra- 
diação sobre a amostra em estudo, as molé- 
culas ali contidas absorvem energia. Esta 
energia promove a passagem dos elétrons de 
um estado fundamental (E 0 ) a um estado de 
maior energia (Ej). Após o desligamento da 
fonte de luz, os elétrons retornam a E 0 depois 
de alguns segundos, liberando a energia ab- 
sorvida. Esta energia, por exemplo, pode es- 
tar na região do ultravioleta permitindo, por 
exemplo, medições de dicroismo circular (ver 
capítulo 10) e de fluorescência. 

Entretanto, a absorção de energia radi- 
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ante não envolve somente transições eletrô- 
nicas, mas a energia total da molécula (E total ). 
Esta energia pode ser representada pelo so- 
matório das energias associadas a: 1) rotação 
da molécula na solução (e r ), 2) movimento 
dos átomos dentro da molécula, constituindo 
a energia vibracional (E v ), e 3) movimento 
dos elétrons ao redor do núcleo, a chamada 
energia eletrônica (E e ). Assim, podemos re- 
presentar E total = E R + E v + E e . Dependendo do 
nível de energia da radiação incidente, quando 
a molécula retorna de seu estado excitado 
para o estado fundamental, também há perda 
nas energias de vibração (E v ) e rotação (e r ). 

Assim, nos comprimentos de onda abai- 
xo de 25 um (4ÜÜ cm -1 ), ou seja, em torno da 
região do IV médio, a radiação tem energia 
suficiente para provocar modificações nos ní- 
veis de energia vibracional (E v ) da molécula, e 
estas modificações são acompanhadas por 
alterações nos níveis de energia rotacional 
(e r ). Isto ocorre quando a luz no IV coincide 
com a energia necessária para que ocorra 
uma determinada vibração molecular. 

Ao estudar as mudanças no comporta- 
mento molecular após a incidência de radia- 
ção IV, podemos caracterizar os diferentes 
modos de vibração e rotação de uma molécu- 
la, os quais constituem o espectro de infra- 
vermelho. 

Análises na região do IV permitem des- 
crever o arranjo espacial dos átomos nas 
moléculas do composto em estudo, ou seja, 
como é a sua estrutura química; fornecem in- 
formações sobre comprimento e a força de 
ligações químicas; fornecem evidências para 
o comportamento químico ou físico relativo 
de uma molécula (estado redox, catálise enzi- 
mática e fosforilação, dentre outras), além de 
permitirem a análise qualitativa e quantitativa 
de uma determinada molécula. 

Para compreendermos como o espec- 
tro de IV pode fornecer informações sobre o 
arranjo molecular de um determinado com- 
posto e sobre a interação deste com o ambi- 
ente, devemos definir a frequência de 
vibração de um oscilador diatômico. Esta 
frequência (v) pode ser representada por: 


v = ( k/m r )°’ 5 /27r 

onde k é a constante de força entre os 
dois átomos em r a massa reduzida. 

De forma simplificada, a massa reduzida (m r ) é um 
termo utilizado em mecânica Newtoniana ao se estu- 
dar um sistema diatômico (ou seja, no qual há intera- 
ção entre dois átomos). A m r engloba a massa do 
primeiro e do segundo átomos, simplificando um sis- 
tema de dois componentes em um sistema de um 
componente. 

Esta equação nos diz que a frequência 
de vibração aumenta quanto maior for a força 
de interação entre os dois átomos (isto é, a 
força da ligação química). Em outras pala- 
vras, quando aumenta a densidade eletrônica 
na ligação entre os dois átomos (de uma liga- 
ção simples para uma ligação dupla e para 
uma ligação tripla) aumenta a frequência de 
vibração. Dessa forma, qualquer fator inter- 
ou intramolecular que altere a densidade ele- 
trônica nas ligações (como o tipo de átomo) 
irá afetar o espectro vibracional obtido por IV. 
E quanto maior for a massa dos átomos, mais 
lenta será a vibração (menor frequência). 

Se pensarmos em ligações Ü-H e N-H, 
embora sejam ambas ligações simples, o 
átomo de oxigênio é mais eletronegativo que 
o átomo de nitrogênio. Assim, a ligação 0-H é 
mais polar que a ligação N-H, resultando em 
uma força de interação diferente entre os 
átomos e, por conseguinte, uma vibração di- 
ferente. Adicionalmente, como veremos adi- 
ante, o espectro de IV não é definido somente 
por características intramoleculares do com- 
posto em estudo, mas também de interações 
com outras moléculas. 

Com a absorção da luz no IV as ligações 
atômicas vibram, promovendo deformações 
axiais (estiramentos) ou angulares (dobras). 
Estiramentos são alongamentos da ligação 
química, enquanto deformações angulares 
são dobras nesta ligação química. Os estira- 
mentos e deformações podem ser simétricos 
ou assimétricos, como representado na Figu- 
ra 2-11 para a molécula de água. As deforma- 
ções angulares simétricas que ocorrem no 
plano são chamadas de deformação em te- 
soura, enquanto que as deformações assi- 
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Figura 2-11: Modos vibracionais da H 2 0. As 
setas vermelhas indicam em A, estiramento 
simétrico: B, estiramento assimétrico: C, 
deformação angular no plano (em tesoura). 

métricas no plano são chamadas de vibra- 
ções em balanço ou rotação. 

Existem também deformações que 
ocorrem fora do plano, que podem ser deno- 
minadas como deformações em balanço (si- 
métrico) ou em torção (assimétrico, saindo 
ou entrando da tela deste computador, por 
exemplo). Na literatura, muitas vezes estas 
deformações são representadas como v (de- 
formação axial) e c (deformação angular). 

Como representado na Figura 3-11, é 
possível notar que espectros de IV podem ser 
extremamente complexos, visto a quantidade 
de estiramentos e deformações angulares 
que podem estar presentes em uma molécula 
relativamente pequena. Tomemos como um 
exemplo a molécula de ureia que, embora te- 
nha somente três ligações químicas diferen- 
tes (isto é, C=0, N-H e C-N), apresenta mais de 
7 picos em seu espectro IV (Figura 3-11). 

Além do número de picos (ou bandas) 
em um espectro de IV, a intensidade de cada 
banda varia de acordo com a quantidade de 
luz absorvida por determinada ligação na fre- 
quência observada. Dessa forma, há picos ou 
bandas fracos (baixa intensidade) e picos ou 
bandas fortes (alta intensidade) em espectros 
de IV da maioria das moléculas (ver picos no 
espectro IV da molécula de ureia, Figura 3-11). 

Como podemos verificar na Figura 4-11, 
as frequências vibracionais de ligações quími- 
cas presentes em proteínas estão presentes 
em diversas regiões do espectro de IV. Para 
pequenos compostos, a análise dos espectros 
de IV pode fornecer informações sobre o ar- 
ranjo espacial dos átomos envolvidos. 

Entretanto, para macromoléculas, que 
são o foco deste capítulo, há obviamente uma 



Número de onda (cm' 1 ) 


Figura 3-11: Espectro de infravermelho da 
ureia. 

grande sobreposição de frequências vibracio- 
nais. Dessa forma, não é possível determinar 
a estrutura molecular de uma proteína por IV. 
Podemos, contudo, obter informações sobre 
seus componentes de estrutura 2 ária e seu 
grau de enovelamento. 

A análise de estrutura 2 ária de proteínas 
e de outras macromoléculas biológicas por 
infravermelho teve início na década de 1970. 
Com o advento de espectrofotômetros de IV 
não-dispersivos (FTIR) e novos detectores, 
houve uma melhoria significativa na qualidade 
e conteúdo de informação a ser obtido de es- 
pectros de infravermelho de proteínas. 

11.2. Instrumentação 

A notação mais utilizada para análise no 
IV é dada em números de onda. Esta notação 
é uma grandeza física diretamente proporci- 
onal à energia da radiação eletromagnética e, 
portanto, inversamente proporcional ao 
comprimento de onda em nanômetros. A uni- 
dade da notação em números de onda é cen- 
tímetros recíprocos ou cm -1 . 

0 número de onda pode ser definido 
como o número de ondas da radiação eletro- 
magnética que são comportados dentro de 
um espaço de 1 cm (Figura 5-11). Por exemplo, 
uma radiação com comprimento de onda de 
3ÜÜ nm equivale a 33,333 cm' 1 , e uma radia- 
ção com comprimento de onda de 500 nm 
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Figura 4-11: Frequências de absorção no IV de algumas ligações químicas. Estão representadas 
frequências vibracionais resultantes de estiramentos (azul), dobras ou deformações em 
tesoura (vermelho) e em balanço (verde) da ligação. 


(menos energética do que a primeira) possui 
um comprimento de onda de 2.ÜÜÜ nm. As- 
sim, como o número de onda é diretamente 
proporcional à energia e, portanto, à frequên- 
cia, quanto maior o valor em números de on- 
da, mais alta será a frequência daquela 
radiação eletromagnética. 

A energia da radiação eletromagnética á definida 
por: 

E = hv = hc/X 

onde h é a constante de Planck (6,6261 x 10 -34 J), c é a 
velocidade da luz no vácuo (2,99792 x 10 8 m/s), v é a 
frequência da radiação (dada por v = hdX ) eléo com- 
primento de onda em nanômetros. 

Para conversão da notação de frequências de ab- 
sorção no IV entre nanômetros e números de onda, 
considerando-se que 1 cm = 10.000.000 nm (10 7 ), en- 
tão: 

número de onda = 1/A. 10 7 

Antes de discutirmos sobre a análise de 
espectros de IV de proteínas, faremos uma 
breve explicação sobre a instrumentação em- 
pregada nestes estudos. 0 equipamento bási- 
co consiste em uma fonte geradora de luz no 
IV, de espelhos organizados para direcionar a 
luz para a amostra e de um detector para 


captar a luz transmitida. A fonte geradora de 
IV é, em geral, composta por óxidos de terras 
raras (por exemplo, carbeto de silício), que 
emitem radiações na região do IV quando 
aquecidos a altas temperaturas (1.000 a 
1.800 °C). 

Espectrômetros de IV por transformada 
de Fourier contém um dispositivo chamado de 
interferômetro. 0 interferômetro é um siste- 
ma óptico capaz de fornecer uma radiação 
aproximadamente monocromática na região 
de 2,5 pm a 15 pm ou até 50 pm. 0 interferô- 
metro permite a separação e depois a re- 
combinação do feixe de infravermelho, a 
partir da passagem da luz pelo separador do 
feixe ( beom s piitter) e a incidência de cada 



Figura 5-11: Representação esquemática de 
uma onda eletromagnética. 
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feixe resultante sobre um espelho fixo e um 
espelho móvel. 0 sinal de saída é chamado de 
interferograma (Figura 6-11). 

0 funcionamento de um interferômetro 
consiste na passagem do feixe luminoso pelo 
separador de feixe (B), e parte do feixe é re- 
fletido pelo espelho móvel (EM) e retorna ao 
separador. 0 outro feixe é refletido do sepa- 
rador e, então, pelo espelho fixo (EF), retorna 
a B. 0 feixe recombinado sai do interferôme- 
tro, passa através da amostra (A) e viaja até o 
detector (D) (Figura 6-11). 0 sinal é captado a 
intervalos precisos, correspondentes a pas- 
sos iguais na diferença de caminho óptico (ou 
seja, a distância da trajetória da luz pela 
amostra), resultando em um sinal combinado 
de interferência destrutiva e construtiva em 
função das diferenças de fases (ver abaixo), o 
que origina o nome do dispositivo e do sinal 
obtido. 0 interferograma é resultante do re- 
gistro do sinal no detector em função da dife- 
rença de caminho entre os dois feixes. Como 
referência, é utilizado um laser de hélio-neô- 
nio, e sua radiação monocromática de 632,8 
nm atravessa o mesmo caminho óptico do 
feixe de IV. 

A varredura em FTIR corresponde ao 
deslocamento mecânico do espelho móvel 
(E m ). Quando a distância B - E M é igual à dis- 


D 



Figura 6-11: Esquema de um interferômetro. 
A luz no IV, gerada pela fonte, trafega até o 
separador do feixe (B), que é separado e 
incide sobre o espelho fixo (E F ) e sobre o 
espelho móvel (E M ). 0 feixe é recombinado 
em B, atravessa a amostra (A) e chega ao 
detector (D). 


tância B - E p os dois feixes refletidos percor- 
rem a mesma distância, estando totalmente 
em fase (ver adiante). Como resultado, os 
dois feixes interferem construtivamente, e o 
detector observa um máximo de intensidade. 
Esta posição do espelho móvel é chamada de 
diferença zero de caminho óptico (zero path 
difference ou ZPD). Neste caso 2.(B - E M ) = 
2.(B - E f ). À medida que E M afasta-se do ZPD, 
a distância B - E M aumenta em relação à dis- 
tância B - Ep Quando os dois feixes estiverem 
180° fora de fase, e a interferência será des- 
trutiva, provocando um mínimo na resposta 
do detector. 

0 espectro resultante (dados no domí- 
nio de frequência) é a solução de Fourier para 
o sinal do interferograma (dados no domínio 
de tempo). Espectrômetros FTIR permitem 
medidas mais rápidas do que os antigos es- 
pectrômetros, denominados dispersivos (Ta- 
bela 1-11). 

Para entendermos o significado de diferença de fa- 
se vamos tomar como exemplo duas radiações (isto é, 
ondas eletromagnéticas) que apresentam a mesma 
frequência e, portanto, a mesma energia. Se ambas 
estão trafegando ao mesmo tempo no espaço, estas 
ondas estão em fase e há um somatório de suas am- 
plitudes (ver Figura 7-11). 

Se há um retardo de uma das frequências em rela- 
ção à outra, estas ondas estão agora fora de fase. Se 
as ondas estão 180° fora de fase a interferência é des- 
trutiva, pois o somatório das ondas resulta em □. Em 
contrapartida, se estão em fase a interferência é cons- 
trutiva. Esta mesma definição pode ser aplicada para a 
vibração das ligações químicas presentes em uma da- 
da molécula, as quais podem estar vibrando em fase 
ou fora de fase 

11.3. Vibrações de H 2 0 e 2 H 2 0 

Água no estado líquido e vapor de água 
interferem de forma intensa em espectros de 
IV de proteínas. As principais frequências vi- 
bracionais da água (Tabela 2-11) se sobre- 
põem à região da amida I, principal banda no 
IV que dá informações sobre a estrutura 2 ária 
de proteínas. 

Sendo assim, para se realizar medidas 
de proteínas em solução, as amostras são 
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Tabela 1-11: Diferenças entre espectrômetros 
por transformada de Fourier (FTIR) e 
espectrômetros dispersivos. 


IR dispersivo 


Partes móveis: desgaste 
e tolerância mecânica 

Pequena fração de v é 
detectada por unidade 
de tempo. Varredura 
completa em 10 - 15 min 
Baixa velocidade de 
varredura 
Não há referência 
interna para verificar a 
exatidão de v, exigindo 
calibração com 
espectros referência 
Amostra localizada 
próximo à fonte, 
gerando possíveis 
problemas térmicos 


FTIR 


Somente 1 espelho se 
movimenta durante 
coleta 

Todos os valores de v 
são detectadas 
simultaneamente. 
Espectro coletado < 1 s 
Rápida velocidade de 
varredura: cinética 
Uso de He-Ne: sistema 
de calibração interno 
com exatidão e precisão 
na faixa de 0,01 cm -1 

Amostra localizada 
longe da fonte 


usualmente diluídas em D 2 0 ( 2 H 2 0), ou óxido 
de deutério. Como o deutério apresenta mas- 
sa maior do que o hidrogênio, sua frequência 
vibracional é menor do que a da H 2 0, não ha- 
vendo mais sobreposição na região da amida 
I, onde são vistas hélices a e estruturas de- 
sordenadas (ver a seguir). Assim, quando te- 
mos 2 H ao invés de 1 H, as principais bandas 
vibracionais da água líquida são deslocadas 
para frequências mais baixas. 

0 espectro de IV da água no estado lí- 
quido sofre alterações dependentes das liga- 
ções de hidrogênio o que, por sua vez, não 
ocorre no espectro IV da água em vapor (on- 
de estas interações estão ausentes). Para a 
água no estado líquido, com o aumento da 
força das ligações de hidrogênio observa-se o 
deslocamento das deformações axiais e das 
deformações angulares para menores e mai- 
ores frequências, respectivamente. Estas va- 
riações na intensidade das ligações de 
hidrogênio podem ocorrer, por exemplo, devi- 
do a mudanças na temperatura. Neste caso, 
um aumento na temperatura enfraquece as 
ligações de hidrogênio, fortalecendo a ligação 


A 


Y 

B * 



Figura 7-11: Exemplo esquemático de duas 
ondas em fase (A) e duas ondas 180° fora de 
fase (B). 


covalente O-H que passa a vibrar em fre- 
quências maiores. 

11.4. Realizando medidas de IV 


Como vimos acima, há uma grande so- 
breposição entre vibrações da molécula de 
água com a região do espectro de IV empre- 
gada no assinalamento das estruturas 2 árias 
de proteínas. Assim, precisamos reduzir ao 
máximo o conteúdo de H 2 0 da amostra a ser 
analisada. 

Para medidas em solução, uma alterna- 
tiva é realizar todas as etapas de obtenção da 
proteína de interesse em 2 H 2 0. Entretanto, 
esta alternativa não é usualmente viável de- 
vido ao alto custo da 2 H 2 0 e, ainda, por este 
se hidratar rapidamente. 

Uma abordagem alternativa e ampla- 
mente utilizada é obter a proteína normal- 
mente (estratégia de purificação normal, em 
solvente aquoso), remover toda a H 2 0 por 
secagem (sublimação da água por liofilização 
ou outra técnica de escolha), ressuspender o 
material seco em 2 H 2 0, secar a amostra no- 
vamente para permitir a troca de M por 2 H e 
ressuspender a amostra em 2 H 2 0 em uma 
concentração maior que 1% massa/volume 
para a realização da medida. A amostra em 
solução é aplicada entre duas janelas (duas 
"fatias") formadas por material transparente 
ao IV médio, como fluoreto de cálcio (CaF 2 ), 
por exemplo, que são montadas em um por- 
ta-amostras (Figura 8-11). 

Caso não se deseje realizar medidas em 


226 





11. Infra-vermelho 



Tabela 2-11: Principais vibrações de 1 H 2 0 e 2 H 2 0 (D 2 0) na região do IV. 


Vibração 

H 2 0 líquida (25 °C) 

D 2 0 líquido (25 °C) 


v (cnr 1 ) 3 

E 0 (MTcnr 1 ) 13 

v (cnr 1 ) 9 

E 0 (M- 1 .cm- 1 ) b 

Dobra 

1.643,5 

21,8 

1.209,4 

17,4 

Combinação de dobra e oscilação 

2.127,5 

3,50 

1.555,0 

1,91 

Estiramentos simétricos e assimétricos 

3.404,0 

99,9 

2.504,0 

71,5 


a v, frequência vibracional; b E 0 , coeficiente de extinção molar. 


solução, é possível analisar a amostra seca na 
forma de pastilha com brometo de potássio 
(KBr). KBr é transparente na região do infra- 
vermelho médio, e é também o componente 
do separador do feixe no interferômetro. Em 
linhas gerais, mistura-se a amostra de inte- 
resse a 1% com KBr (1 mg da amostra para 
1ÜÜ mg de KBr, por exemplo) em um gral com 
um pistilo de quartzo e, por pressão mecâni- 
ca, gera-se um disco da amostra com espes- 
sura de ~10 mm que é acondicionado ao 
porta-amostras do equipamento para realiza- 
ção da leitura. É importante realizar uma ma- 
ceração eficiente da amostra com KBr, para 
resultar em uma distribuição uniforme da sua 
amostra com o pó. 

Para a amostra seca, é ainda possível 
realizar medidas empregando técnica de re- 
flectância total atenuada ( attenuated totoi 
reflectance, ATR). Nesta técnica, a amostra 
sólida é depositada sobre um cristal de índice 
de refração maior que a amostra e compri- 
mida sobre esta superfície, de modo a impedir 
a presença de ar e água que poderiam atra- 
palhar a medida. A luz IV é então refletida so- 
bre esta superfície. 0 feixe emerge do cristal 
(neste caso, é chamado de onda evanescente) 
e incide sobre a amostra, havendo absorção, 
refletindo de volta e sendo por fim redirecio- 
nada ao detector. Existe grande popularidade 
neste método devido à vantagem de não de- 
mandar pastilhamento e requerer apenas al- 
guns microgramas de amostra seca. 

Após o preparo da amostra, coleta-se 
inicialmente um espectro base ( bockground) 
na ausência de amostra. Este espectro base 
normalmente é chamado de espectro de feixe 
único (single-beam ) , pois reflete a resposta 
em todas as frequências da região do IV mé- 


dio (que é gerada pela maioria dos equipa- 
mentos de IV) sem nenhuma correção. Um 
espectro de feixe único de uma amostra pode 
ser corrigido pelo espectro base, o que irá 
gerar o espectro final de IV. 

Contudo, medidas envolvendo proteínas 
requerem instrumentação com sensibilidade 
maior do que aquela empregada para peque- 
nas moléculas, visto que o sinal da amida é 
mais fraco (baixa intensidade) devido à baixa 
absorção de luz no IV médio. 

Antes de iniciarmos a coleta de um es- 
pectro de IV, devemos resfriar o detector com 
nitrogênio líquido (-196 °C). Detectores MCT 
(mercúrio, cádmio e telureto) apresentam al- 
ta sensibilidade e são a escolha para análise 
de proteínas. Estes detectores semiconduto- 
res de fótons no IV são refrigerados para re- 
duzir o ruído e o vazamento de corrente 
resultante dos processos de geração térmica. 
Detectores MCT operam a temperaturas de 
80 a 2GÜ K. 

Mesmo para amostras medidas no es- 



Figura 8-11: Janelas de fluoreto de cálcio 
(esquerda) e porta-amostra (direita). 
Dimensões típicas das janelas de CaF 2 : 32 
mm de diâmetro e 3 mm de espessura. 


227 




11. Infra-vermelho 



tado sólido (sem água líquida), deve-se efetu- 
ar a purga da região do porta-amostras com 
N 2 ou ar seco, pois vapor de água também 
absorve na região do IV médio e pode com- 
prometer a análise da banda amida I (ver adi- 
ante). 

Para realizar medidas de espectroscopia 
de IV por transformada de Fourier (FTIR) o 
ideal é coletar o maior número de varreduras 
possíveis, com resolução alta (de 1 a 2 cm -1 ). 
0 espectro resultante pode ser na escala de 
transmitância ou absorbância (Figura 9-11). 
Caso o espectro contenha muito ruído, é 
aconselhável diminuir a resolução da medida 
(por exemplo, 4 cm -1 ) e/ou aumentar a quanti- 
dade de amostra analisada (aumentar a mas- 
sa, caso depositada em cristal de ATR, ou 
aumentar a concentração, caso esteja medin- 
do proteína em solução). 

11.5. Espectros de IV de proteínas 

A análise de estrutura 2 ária de proteínas 
a partir de seu espectro vibracional vem sen- 
do realizada desde o início da década de 1980. 
É possível inferir se a proteína adota uma es- 
trutura rica em hélices a, folhas p, ou se não 
apresenta estrutura 2 ária definida (ver capítulo 
2), a partir da análise da banda amídica I de 
proteínas na região do IV médio. Além da ami- 
da I, o espectro vibracional de proteínas apre- 
senta outros componentes que serão 
apresentados a seguir. 

Como já descrito no capítulo 2, o esta- 
belecimento de redes de ligação de hidrogênio 
entre resíduos de aminoácidos é um dos fato- 
res que distingue os tipos de estrutura 2 ária 
adotadas por sequências polipeptídicas. Cada 
tipo de estrutura 2 ária , por sua vez, implicará 
na adoção de valores para os ângulos cp e y 
ao redor da ligação peptídica. Estas intera- 
ções afetam a frequência vibracional de liga- 
ções ente átomos, e isso será refletido no 
espectro de IV da proteína estudada. Dessa 
forma, é possível inferir que tipo de estrutura 
2 aria a proteína analisada apresenta. 
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Figura 9-11: Absorção de poliestireno 

(estrutura no gráfico à direita) em filme na 
região do infravermelho médio. Na esquerda 
está o espectro em unidades de transmitância 
e, na direita, o mesmo espectro em unidades 
de absorbância. 

Regiões vibracionais de proteínas 

Parte do estudo das vibrações no IV da 
ligação peptídica (ou ligação amídica) foi ba- 
seado na análise dos componentes vibracio- 
nais da N-metil acetamida (NMA, Figura 10-11). 
Esta molécula é utilizada como composto 
modelo para definição de componentes vi- 
bracionais em proteínas, já que é a menor es- 
trutura que contém um grupamento peptídico 
em E (ligações peptídicas em trans, as quais 
ocorrem na quase totalidade das proteínas). 

As diferentes regiões vibracionais de 
proteínas no espectro de IV são chamadas de 
bandas amídicas ou amidas, pois resultam 
das diferentes interações realizadas pelos 
átomos que compõem a ligação amídica (li- 
gação peptídica) com moléculas do solvente e 
com átomos da própria proteína, sejam estes 
da cadeia lateral ou do esqueleto polipeptídi- 
co (Figura 11-11). Por exemplo, como vimos no 
capítulo 2, a estrutura 2 aria de proteínas é 
mantida principalmente por ligações de hi- 
drogênio entre os grupamentos N-H e C=0 da 
cadeia polipeptídica com os mesmos grupa- 
mentos na volta seguinte da hélice ou na fita 
vizinha da folha. 

Além das vibrações da cadeia polipeptí- 
dica (que informam sobre a estrutura 2 ária da 
proteína), vibrações das cadeias laterais de 
resíduos de aminoácidos também contribuem 
para o espectro de IV de proteínas. Entretan- 
to, há uma grande sobreposição das vibra- 
ções de cadeias laterais, e algumas absorvem 
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Figura 10-11: Estrutura da N-metil acetamida 
(NMA). 

fracamente a Luz IV. Portanto, é difícil identifi- 
cá-las isoladamente. A seguir serão apresen- 
tadas as principais regiões vibracionais de 
proteínas e quais informações podem ser ob- 
tidas de cada uma destas regiões. 

Amido s A e B 

Estas bandas são resultantes do estira- 
mento da ligação N-H e estão presentes na 
faixa de -3.300 e -3.170 cm -1 . Esta região é 
insensível à conformação da cadeia polipeptí- 
dica, e sua frequência depende da força da li- 
gação de hidrogênio realizada pelo 
grupamento. 

Amido I 

Esta é a principal banda vibracional de 
proteínas, pois fornece informações sobre a 
estrutura 2 ária destas macromoléculas. A 
frequência média da amida I ocorre em torno 
de 1.650 cm -1 , e resulta principalmente do es- 
tiramento simétrico da carbonila (v c=0 ), com 
pequenas contribuições da vibração C-N fora 
de fase, da deformação C-C-N e da torção N-H 
no plano. A estrutura do esqueleto polipeptí- 
dico irá determinar como as várias coordena- 
das internas irão contribuir para a vibração 
desta banda. A despeito de ser influenciada 
pela estrutura 2 ária , esta vibração é muito 
pouco afetada pela natureza das cadeias La- 
terais. 

Amida II 

A absorção da banda amida II ocorre em 
-1.550 cm -1 quando o solvente utilizado no 
experimento de IV é H 2 0. Esta vibração é a 
combinação fora de fase da torção N-H no 
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Figura 11-11: Espectro de absorção no IV médio 
de uma amostra proteica. Observe as regiões 
de amida I (1.700 a 1.600 cm' 1 ) e amida II 
(1.600 a 1.450 cm' 1 ). 

plano e do estiramento da ligação C-N, com 
poucas contribuições da torção C-0 no plano 
e das vibrações de C-C e N-C. Como para a 
amida I, esta vibração é pouco afetada pelas 
vibrações das cadeias laterais, mas a corre- 
lação entre estrutura 2 ária e frequência, nesse 
caso, é menos direta do que para a vibração 
amídica I. 

Entretanto, a análise desta banda vibra- 
cional fornece informações a respeito do 
enovelamento proteico e sua dinâmica con- 
formacional em experimentos de troca de M 
por 2 H (troca hidrogênio - deutério), pois há 
um desvio da amida II para 1.450 cm' 1 quando 
a proteína é diluída em 2 H 2 0. Sendo assim, é 
possível acompanhar a troca de hidrogénios 
lábeis (como hidrogénios da ligação N-H da 
cadeia polipeptídica) por deutério durante 
tratamento térmico da proteína, interação 
com algum ligante e aumento na pressão, 
dentre outras variáveis. Átomos de hidrogênio 
em regiões mais protegidas da proteína irão 
demorar mais para trocar por deutério do que 
átomos de hidrogênio em regiões expostas 

Há ainda uma terceira banda relacionada 
à ligação peptídica, a chamada banda de ami- 
da III. Esta banda, no NMA, é a combinação em 
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fase da dobra da Ligação N-H e do estiramen- 
to da Ligação C-N, principaLmente. Em poLi- 
peptídeos, a composição dessa banda é mais 
compLexa, pois depende da estrutura das ca- 
deias Laterais e a dobra do N-H contribui para 
várias bandas na região de 1.4ÜÜ a 1.2ÜÜ cm -1 . 
Como essas contribuições variam bastante, 
esta vibração é de pouca utiLidade para anáLi- 
se de estrutura 2 ária . 

Vibração do esqueleto peptídico 

Esta vibração ocorre de 1.2ÜÜ a 880 
cm -1 e resuLta do estiramento das três Liga- 
ções do esqueLeto poLipeptídico. Para o com- 
posto modeLo NMA, estas vibrações geram 
duas bandas bastante definidas, mas com ab- 
sorção fraca no IV: uma vibração vN-Ca, pre- 
dominante em 1.096 cm' 1 , e um modo misto a 
881 cm' 1 . 

Vibração de cadeias laterais 

As cadeias Laterais de resíduos de ami- 
noácidos de proteínas absorvem Luz no IV. 
Entretanto, a identificação de resíduos espe- 
cíficos é dificuLtada para aLta sobreposição 
das suas frequências vibracionais. 

Dentre os diferentes grupamentos pre- 
sentes em cadeias Laterais, há dois tipos par- 
ticuLares que absorvem em regiões espectrais 
Livres de sobreposição por outros grupos e 
que podem, dessa forma, ser assinaLados. O 
primeiro grupamento é a suLfidriLa das cisteí- 
nas, com absorção entre 2.550 e 2.600 cnrr 1 , 
e o segundo é a carboniLa (C=0) de grupa- 
mentos carboxílicos protonados, com absor- 
ção entre 1.710 e 1.790 cnr 1 . A anáLise destas 
regiões pode fornecer informações tais como 
eventos de (des)protonação. 

Por exempLo, os resíduos Asp e GLu pro- 
tonados apresentam duas bandas fortes en- 
tre 1.550 e 1.580 cm -1 e próximos a 1.400 
cm' 1 . Essas bandas, contudo, são desLocadas 
na presença de queLantes de cátions depen- 
dendo do tipo de coordenação (importante 
para o estudo de proteínas que Ligam íons 
cáLcio). 

Por outro Lado, a absorção da cadeia La- 


teraL de resíduos de Arg, que ocorre em 1.635 
e 1.673 cm' 1 , é sobreposta à absorção da 
amida I. Contudo, a troca de 1H por 2H gera 
desvios a -50 e -70 cm-1, respectivamente 
(desvio para frequências menores), o que 
permite a visuaLização destas bandas. 

Há ainda uma vibração de Tyr que é fre- 
quentemente visuaLizada em espectros de IV 
de proteínas a -1.517 cm' 1 . Esta frequência vi- 
bracionaL é desLocada para -1.500 cm' 1 quan- 
do ocorre desprotonação da cadeia LateraL do 
resíduo de Tyr. 

11.6. IV e estrutura 2 ária 

Como descrito na seção anterior, prote- 
ínas apresentam bandas vibracionais carac- 
terísticas no IV médio. A banda da amida I é a 
região que fornece informação sobre a estru- 
tura 2 ária destas macromoLécuLas. 

A frequência exata da primeira vibração 
(estiramento C=0) depende: 

i) da natureza das Ligações de hidrogênio 
que envoLvem o grupamento amídico, o 
que é determinado peLa estrutura 2 ária 
particuLar adotada peLa proteína: 

ii) da orientação e distância dos dipoLos 
que interagem, o que fornece informa- 
ção sobre arranjo geométrico de grupa- 
mentos peptídicos em uma cadeia 
poLipeptídica. 

0 termo dipoLo se refere a dois póLos. Em física, um 
dipoLo eLétrico envolve a separação de cargas positivas 
e negativas (poLo positivo e poLo negativo). Em moLé- 
culas polares, como a água, por exempLo, um dipoLo é 
formado devido a uma distribuição desiguaL de cargas 
(eLátrons) na Ligação covaLente (0-H), gerando uma re- 
gião de carga parciaL positiva (hidrogénios) e outra de 
carga parciaL negativa (oxigénios). 

DipoLos induzidos são formados quando um íon ou 
uma moLécuLa dipoLar (que apresenta um dipoLo per- 
manente) induz a formação de um dipoLo em um átomo 
ou moLécuLa que antes não apresentava uma distribui- 
ção de cargas. Quando o oxigênio moLecuLar (0 2 , não 
apresenta um dipoLo) interage com uma moLécuLa de 
água (dipoLo permanente), esta úLtima induz um dipoLo 
no 0 2 . 

A apLicação de FTIR para determinação 
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de conteúdo de estrutura 2 ária em proteínas 
se mostrou viável após a análise experimental 
do espectro de IV de proteínas com estrutura 
já resolvida por difração de raios-X, assim co- 
mo a comparação com outros parâmetros 
experimentais, como experimentos de di- 
croismo circular (ver capítulo 10) e cristalo- 
gráficos (distâncias entre ligações, ângulos de 
ligação e de diedro). Dessa forma, foi possível 
estabelecer correlações estruturais-espec- 
trais e, assim, validar a metodologia de FTIR 
para identificação de componentes de estru- 
tura 2 ária em proteínas. 

De qualquer modo, é importante ressal- 
tar que não há hoje método capaz de descre- 
ver as características conformacionais de 
proteínas de forma absoluta. Um dos motivos 
para isto reside na dificuldade em reproduzir, 
durante os experimentos, as condições do 
meio nas quais a proteína exerce sua função 
fisiologicamente, tais como tampão, pH, pre- 
sença de íons, moduladores, etc, uma vez que 
as características conformacionais da proteí- 
na variam como função destes fatores. 

Neste momento, é importante ressaltar 
que as frequências vibracionais na amida I se- 
rão deslocadas para valores menores quando 
a proteína está diluída em 2 H 2 0 (Tabela 3-11), o 
que irá ocorrer quando estamos avaliando 
estrutura 2 ária de proteínas em solução. 

A Tabela 3-11 indica as regiões na amida I 
que são assinaladas aos diferentes compo- 
nentes de estrutura 2 ária . Podemos perceber 
que há sobreposição entre algumas regiões, o 
que implica na necessidade de um processa- 
mento matemático posterior à coleta do es- 
pectro de IV de proteínas, como veremos a 
seguir. A Figura 12-11 mostra espectros re- 
presentativos de proteínas ricas em hélices a 
e em folhas p (vermelho). 

Em geral, a vibração das hélices a ocor- 
re a -1.650 cm -1 , e a de estruturas desorde- 
nadas a -1.645 cm -1 , proximidade esta que 
dificulta a avaliação direta do conteúdo de ca- 
da um destes componentes na estrutura pro- 
teica. As folhas p, por sua vez, apresentam 
mais de uma região vibracional para a amida I, 
com bandas de alta (entre 1.670 e 1.690 cm' 1 ) 
e baixa frequências (de 1.620 a 1.640 cm' 1 ). 



Figura 12-11: Exemplo da região amida I de 
proteínas com estrutura secundária rica em 
hélices a (azul) e folhas p (vermelho). Os 
espectros foram obtidos para proteínas 
diluídas em 2 H 2 0. 

Voltas são assinaladas nas regiões de fre- 
quência entre 1.660 e 1.680 cm" 1 . 

A análise de folhas p apresenta um de- 
safio particular, pois ainda há incerteza sobre 
a possibilidade de distinção de folhas p para- 
lelas e antiparalelas por FTIR. 0 que geral- 
mente se observa é uma separação da amida I 
em proteínas com alto conteúdo de folhas p 
antiparalelas. Sendo assim, é possível dife- 
renciar folhas p paralelas de antiparalelas, 
porque as paralelas absorvem somente em 
baixos números de onda (banda principal a 
-1.630 cm" 1 ) e não possuem o componente 
em -1.680 cm' 1 das folhas p antiparalelas. 

Além disso, em alguns casos é possível 
distinguir entre folhas p antiparalelas intra- e 
intermoleculares, ou seja, proteínas que for- 
mam folhas quando agregadas. Esta agrega- 
ção promoveria uma absorção em 
frequências altas (-1.685 cm' 1 ) e baixas 
(-1.615 cm" 1 ) (Figura 13-11). 

11.7. Informações quantitativas 

Como vimos acima, há uma grande so- 
breposição de componentes vibracionais ao 
longo da banda amida I. Sendo assim, para o 
assinalamento e quantificação (ou seja, cál- 
culo aproximado da porcentagem dos com- 
ponentes de estrutura 2 aria de uma dada 
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Tabela 3-11. Assinalamento dos componentes de estrutura secundária de proteínas a partir da 
análise da amida I. Valores coletados por Byler & Susi (1986) e compilados por Barth & Zcherp 
(2002). 


Estrutura 2 ária 

Posição do pico na presença 
de ^0 (cm -1 ) 

Média Variação 

Posição do pico na presença 
de 2 H 2 0 (cm -1 ) 

Média Variação 

hélice a 

1654 

1648 a 1657 

1652 

1642 a 1660 

Folhas p (baixa frequência) 

1633 

1623 a 1641 

1630 

1615 a 1639 

Folhas p (alta frequência) 

1684 

1674 a 1695 

1675 

1671 a 1694 

Voltas 

1672 

1662 a 1686 

1671 

1660 a 1694 

Estruturas desordenadas 

1654 

1642 a 1657 

1645 

1639 a 1654 


proteína), é necessário realizar um processa- 
mento do espectro original, na região desta 
banda. 

Iremos agora abordar como é possível 
determinar a composição de estrutura 2 ária de 
proteínas a partir da análise da banda amida I 
(de 1.7ÜÜ a 1.6ÜÜ cm -1 ). Como podemos ob- 
servar na Figura 14-11, somente com uma 
inspeção visual da amida I, não é possível 
identificarmos todos os componentes de es- 
trutura 2 ária (com suas diferentes frequências, 
como mostrado na Tabela 3-11) que formam a 



Número de onda (cm' 1 ) 

Figura 13-11: Espectro de infravermelho 

(região amida I) representativo de uma 
proteína que sofreu agregação induzida por 
temperatura. As linhas tracejadas indicam 
componentes de folha p de alta (esquerda) e 
baixa (direita) frequências. 


proteína em questão. Sendo assim, de forma 
geral, é necessário empregar abordagens 
matemáticas para separar as frequências vi- 
bracionais na banda amida I para o posterior 
assinalamento dos diferentes componentes 
(diferentes frequências) de estrutura 2 ária . A 
separação dos diferentes componentes pode 
ser feita por decomposição da amida I em- 
pregando: 

i) cálculo da segunda derivada do es- 
pectro (Figura 15-11). A largura da banda 
da derivada assim obtida é menor que a 
largura da banda original. Assim, a se- 
gunda derivada pode ser utilizada para 
resolver bandas sobrepostas: 

ii) realizar uma auto-deconvolução 

(F5D, Fourier self-deconvolutiori) . 0 

princípio de estreitamento de linha da 
auto-deconvolução é a multiplicação da 
transformada de Fourier do espectro 
original por uma função dependente da 
forma da linha que aumenta com o au- 
mento da distância a partir do pico cen- 
tral. No caso de deconvolução de linhas 
lorentzianas, se usa uma função expo- 
nencial. Dessa forma, as regiões da 
transformada de Fourier que codificam 
para estruturas finas no espectro origi- 
nal levam um peso mais forte. Após 
transformação de volta em um espec- 
tro de IV, os componentes do espectro 
que mudaram mais ao longo do número 
de onda (ou da frequência) são amplifi- 
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Figura 14-11: Espectro de IV (região amida I) 
não processado (vermelho) e após 
processamento matemático (FSD) da proteína 
lisozima em 2 H 2 0. 

cados e as bandas então aparecem mais 
definidas. Para a amplificação, deve-se 
definir um valor de FWHH (no geral de 
13 a 25 cm -1 , dependendo da resolução 
espectral e da relação sinal/ruído) e um 
fator de incremento, que será multipli- 
cado ao sinal total da amida I; 

Ui) uma terceira abordagem é de incre- 
mento de fine-structure ; uma versão 
suavizada do espectro original é multi- 
plicada por um fator pouco menor que 1 
e, subsequentemente, subtraída do es- 
pectro original, aumentando a estrutura 
fina do espectro, similarmente a uma 
F5D. 

Existem diversos problemas para a 
predição de estrutura 2 ária por FTIR, indepen- 
dentemente do método aplicado. Não há um 
único espectro de IV para um tipo de estrutu- 
ra 2 ária , e o espectro obtido também depende 
de detalhes estruturais como deformações 
na hélice ou o número de fitas adjacentes em 
uma folha p. Além disso, outro problema é a 
absorção por cadeias laterais nesta região. É 
estimado que de 10 a 30 % da absorção total 
da amida I é derivada de cadeias laterais. 

Após a separação dos diferentes com- 
ponentes (frequências) da amida I, utilizando 
alguma das abordagens apresentadas acima, 



Figura 15-11: Espectro na região da amida I de 
uma proteína em solução ( 2 H 2 0) (vermelho). 
Em azul está representada a segunda 
derivada do espectro original e, em preto, o 
espectro resultante do somatório dos 
diferentes componentes (verde) deduzidos a 
partir da segunda derivada. 

é possível identificar (ver Tabela 3-11) e calcu- 
lar a fração de cada componente de estrutura 
2 ária presente na proteína. 0 percentual de 
cada tipo de estrutura 2 ária é então calculado 
a partir da área de cada banda corresponden- 
te a um determinado tipo de estrutura 2 ária 
em comparação com a área do espectro total 
na amida I (que apresenta o valor de 100%). 

11.8. Desvio de X H para 2 H 

Como vimos anteriormente, os espec- 
tros de IV de proteínas em solução são obti- 
dos a partir de amostras diluídas em 2 H 2 0. A 
troca 1 H/ 2 H leva a pequenos desvios nos 
componentes da amida I (denominada amida \' 
quando a proteína está dissolvida em 2 H 2 0). 
Esses desvios de frequência são causados 
pela pequena contribuição da dobra N-H para 
esta banda de vibração. 

Para proteínas, a grandeza do desvio 
depende do tipo de estrutura 2 ária . Em geral, 
ocorre um desvio de -15 cnr 1 para compo- 
nentes de baixa frequência de folhas p e vol- 
tas. Estruturas desordenadas sofrem desvio 
de 10 cm' 1 , enquanto que para as outras ban- 
das o desvio é menor. A magnitude do desvio 
vai depender da extensão da contribuição da 
v N _ H para a banda amida I. 

Outra causa para este desvio não ser 
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homogêneo entre todas as proteínas é a troca 
incompleta de M por 2 H, principalmente em 
regiões de estrutura 2 ária ordenada que apre- 
sentam um pequeno desvio. Sendo assim, é 
essencial o conhecimento do solvente utiliza- 
do (se H 2 0 ou 2 H 2 0) para interpretação de es- 
pectros de IV de proteínas. 

11.9. Vantagens e limitações 

Como principais vantagens da técnica, 
podemos citar: 

i) As medidas de FTIR de proteínas po- 
dem ser realizadas rapidamente: 

ii) Usualmente, os espectros de FTIR 
apresentam elevada resolução mesmo 
com sinal baixo; 

Ui) Pode ser aplicada em amostras em 
solução ou secas: 

iv ) Pode ser aplicado a amostras insolú- 
veis, o que usualmente limita as medi- 
das em outras técnicas 
espectroscópicas; 

v) Meios opticamente turvos podem ser 
utilizados, o que amplia a diversidade de 
ambientes em que a macromolécula 
pode ser estudada; 

vi) Permite a avaliação da estrutura de 
proteínas inseridas em membrana e 
agregados proteicos, além de outros 
sistemas pouco estudados por outros 
métodos espectroscópicos; 

vii) Grande quantidade de informação 
obtida; 

viii) Técnica não-destrutiva, ou seja, há a 
possibilidade de recuperação da amos- 
tra após a medida. 

As limitações e cuidados a serem to- 
mados incluem: 

i) A quantidade de proteína necessária é 
elevada (de 1 a 4 wt%); 

ii) A troca ^0 — ► 2 H 2 0 requer liofiliza- 
ção da amostra; 

Ui) Avaliação quantitativa ainda limitada 
devido à falta de modelos acurados; 

iv) A deconvolução nem sempre irá re- 
presentar a estrutura correta final em 
função do elevado número de bandas 


sobreponíveis. Amplificação do ruído 
após F5D. 

v) Exige manipulação matemática ex- 
tensa dos dados experimentais obtidos; 

vi) Sofre interferência de contaminantes 
que absorvam no IV médio, como o TFA, 
solvente utilizado na purificação de 
peptídeos sintéticos, que absorve a 
1.673 cm- 1 . 

11.10. Conceitos-chave 

Caminho óptico: espessura da solução atraves- 
sada por um feixe de luz. 

Interferograma: Padrão de interferência gerado 
por um interferômetro, a partir da recom- 
binação da luz gerada a partir de duas 
fontes diferentes. 

FWHH ( full bandwidth at half height ): largura 
máxima da banda na metade da altura 
(intensidade total). 

Beam splitter: separador do feixe de infraver- 
melho, presente no interferômetro. 

FSD: Fourier self-deconvolution. Deconvolução 
de uma região do espectro de IV (Amida I, 
no caso), a partir de estreitamento de 
banda e da utilização de um fator de in- 
cremento (de 1.5 a 2.5), que é multiplica- 
do pelo sinal da Amida I obtida. 

N-metil acetamida (NMA): Menor molécula que 
contém um grupamento peptídico em 
trans. Utilizado como modelo para análise 
dos modos vibracionais da cadeia polipep- 
tídica. 

Transformada de Fourier: É uma transformada 
reversível de uma função em outra função. 
A segunda função, chamada de transfor- 
mada de Fourier fornece os coeficientes de 
funções senoidais (suas frequências) que 
podem ser recombinadas para obter a 
função original. 

Massa reduzida (n): Quantidade que permite 


234 


11. Infra-vermelho 



que o problema de dois corpos na mecâ- 
nica Newtoniana seja resolvido como um 
problema de um corpo somente, pois: 

H = ml x m2/ml + m2, onde ml é a massa do 
corpo 1 e m2 é a massa do corpo 2. 
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12. Ressonância Magnética Nuclear 




Estrutura 3D da proteína Psdl determinada por RMN. 

12.1. Introdução 

12.2. Fundamentos 

12. 3. Deslocamento químico 

12.4. Acoplamento escalar 

12.5. Efeito Overhauser nuclear 

12.6. Estrutura de proteínas 

12.7. Análise dos espectros de RMN 

12.8. Cálculo da estrutura 

12.9. Conceitos-chave 


12.1. Introdução 

Os concomitantes avanços em biologia 
molecular e em espectroscopia por Resso- 
nância Magnética Nuclear (RMN) multidimen- 
sional tiveram como reflexo um aumento 
explosivo na utilização da espectroscopia por 
RMN a fim de obter informações estruturais e 
dinâmicas em macromoléculas biológicas, in- 
cluindo ácidos nucleicos, carboidratos e pro- 
teínas. 

A espectroscopia por RMN em solução e 
a cristalografia por raios-X são, essencial- 
mente, as únicas técnicas experimentais ca- 
pazes de fornecer informações da estrutura 
tridimensional de uma macromolécula com 
resolução atômica. Aproximadamente 97% 
das estruturas depositadas no banco de da- 
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dos Protein Doto Bank (PDB) resultam da 
aplicação de uma destas técnicas. As demais 
estruturas provêm, essencialmente, de mo- 
delos teóricos. O número de estruturas re- 
solvidas por cristalografia excede em ~5 
vezes as resolvidas por RMN, em grande par- 
te devido a um limite no tamanho da proteína 
passível de ter sua estrutura determinada por 
RMN (em torno de 6 kDa por técnicas bidi- 
mensionais e -40 kDa por técnicas de três ou 
mais dimensões). Em contrapartida, a crista- 
lografia é limitada, principalmente, pela difi- 
culdade na obtenção de monocristais. 

A primeira estrutura 3D determinada 
através de RMN foi do inibidor de a-amilase 
tendamistat, em 1986, por Kline e colabora- 
dores, ao passo que a primeira estrutura 3D 
de proteína determinada com alta resolução 
através de RMN foi da interleucina 1(3, em 
1991, por Clore e colaboradores. 

12.2. Fundamentos 

Uma das características de um núcleo atômico é 
sua rotação em torno do seu próprio eixo, um fenôme- 
no denominado de spin. Os núcleos com spin possuem 
momento angular p que varia de forma quântica. 0 
número máximo das componentes do momento angu- 
lar de um núcleo é denominado de número quântico de 
spin (/). Um núcleo possui 21 +1 estados de magneti- 
zação, onde o componente do magnetismo nuclear 
possui valores 7, 7-7, 1-2 -7. 

Em proteínas, os núcleos atômicos mais importan- 
tes (devido a propriedades intrínsecas que levam a ge- 
ração de um sinal plausível de ser identificado por 
espectroscopia de RMN) são o 1 H (abundância natural 
de 99,98%), o 13 C (abundância natural de 1,11%) e o 15 N 
(abundância natural de 0,96%). 0 número quântico de 
spin destes núcleos é 1/2. Desta forma, estes núcleos 
possuem dois estados de spin (-1/2 e +7/2). 
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O spin de núcleos carregados cria um campo mag- 
nético orientado paralelamente ao eixo do spin, que po- 
de ser representado por uma quantidade vetorial . 
Este momento magnético é diretamente proporcional 
ao momento angular e à constante giromagnética (7) 
do núcleo. Consequentemente, os diferentes estados 
do spin dos núcleos supracitados resultam em dois es- 
tados de magnetização, representadas pelo número 
quântico magnético m, igual à +1/2 e -7/2. 

Para se obter um sinal de RMN destes núcleos em 
um espectrômetro moderno, inicialmente é induzida a 
orientação do vetor p ao longo do vetor de um campo 
magnético forte gerado por um magneto (vetor B 0 ). 0 
vetor poderá estar alinhado tanto no mesmo sentido 
como no sentido contrário ao vetor B 0 , sendo que a 
quantidade de energia que envolve a transição de um 
núcleo entre estes dois estados é dada pela equação 

AE = (y /2n)B 0 

onde é a constante de Planck. 

Como em outras técnicas de espectroscopia, a 
transição entre estes dois estados pode ser consegui- 
da através da absorção ou da emissão de radiação ele- 
tromagnética, em uma frequência v 0 (frequência de 
Larmor) que corresponde, em energia, à diferença A E. 
Através da equação 

v 0 = yB 0 /2n 

torna-se claro que a frequência da radiação envolvida 
na transição dos estados energéticos dos spins depen- 
de diretamente da força do campo magnético externo 
e do núcleo estudado. Os espectrômetros de RMN são, 
em geral, classificados de acordo com a frequência de 
Larmor do 1 H sob a força do campo magnético gerado 
pelo magneto de tal equipamento. Por exemplo, sob a 
influência de um campo magnético de 14,1 T, a frequên- 
cia de Larmor do ^ será de -600 MHz, e desta forma 
tem-se um espectrômetro de 600 MHz. 

Um fato importante é que os núcleos se distribuem 
desigualmente entre estes dois estados energéticos, 
de tal forma que existe um excesso de núcleos no es- 
tado de menor energia em relação ao de maior ener- 
gia. A relação entre o número de núcleos distribuídos 
entre os dois níveis energéticos é dada pela equação 

Nj/N 0 = exp (- y B 0 /2nkl) 


onde Nj é 0 número de núcleos no estado de maior 
energia, N 0 é 0 número de núcleos no estado de menor 
energia, k é a constante de Boltzmann e Té a tempera- 
tura absoluta. No caso do H por exemplo, em um 
campo magnético de 14,1 T à 293 K, esta relação é de 
-0,999901, que significa um excesso de -198 ppm de 
prótons no estado de menor energia. Este excesso é 
representado por um vetor de magnetização resultan- 
te M (Figura 1-12). 

Através de pulsos de magnetização com vetor per- 
pendicular ao vetor B g e na mesma frequência que a 
frequência de Larmor, é induzida uma reorientação 
(excitação) do vetor M. 

Após certo período de tempo cessa-se o pulso de 
magnetização e detecta-se o sinal ressonância de cada 
núcleo enquanto seus vetores M (para cada núcleo) 
retornam à condição inicial, ou seja, determina-se e 
frequência de precessão do vetor M de cada núcleo ao 
passo que estes retomam o alinhamento paralelo com 
o vetor B 0 . Tal fenômeno, que representa o sinal fun- 



Figura 1-12: Manipulação dos spins para se 
obter um espectro de RMN. A) inicialmente os 
núcleos atômicos apresentam vetor de 
campo magnético ja com orientação caótica. 
B) Através de um campo magnético forte B 0 é 
induzida uma orientação coerente dos vetores 
|i, passando a precessar em torno de B 0 . Esta 
orientação resulta no vetor M (vermelho). C) 
são gerados pulsos de magnetização 
perpendiculares ao vetor B 0 com a mesma 
frequência que da precessão dos spins, o que 
reorienta o vetor M (que fica perpendicular ao 
vetor B 0 mas, dependendo da intensidade ou 
duração do pulso de magnetização, pode ter 
diversas orientações). D) após os pulsos, 
ocorre a relaxação (perda de orientação 
coerente) dos spins, o que é representado 
pela diminuição do vetor M, assim como seu 
realinhamento paralelo ao vetor B 0 . Neste 
ultimo momento é realizada a detecção do 
sinal de ressonância dos núcleos. 
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damental observado por espectroscopia de RMN, é de- 
nominado de Free-lnduction Decoy (FID). Este sinal, re- 
presentado por uma onda no domínio temporal, é 
processado, empregando-se o formalismo da trans- 
formada de Fourier, e o resultado é um espectro no 
domínio das frequências. 

Nas modernas técnicas de RMN não se 
utiliza apenas um único pulso de excitação, 
mas uma sequência de pulsos, que manipu- 
lam os spins de uma forma complexa. A ma- 
nipulação da magnetização dos spins pode 
revelar influências externas sob um núcleo, 
como a proximidade ou ligação a outros áto- 
mos, através de análises da largura, intensi- 
dade e deslocamento químico do sinal de 
cada núcleo em um espectro de RMN. Desta 
forma, através destas sequências de pulsos, 
podem-se obter várias informações relacio- 
nadas com a estrutura de uma molécula, que 
podem por fim, serem “traduzidas” na forma 
da estrutura tridimensional de uma proteína. 

12. 3. Deslocamento químico 

0 deslocamento químico define a locali- 
zação de uma linha nos espectros de RMN ao 
longo do eixo de frequência. Esta grandeza é 
medida relativa a um composto de referência 
(geralmente um composto solúvel em água 
como o 3-trimetilsililpropionato). 

Nos espectros de RMN a unidade do 
deslocamento químico de um núcleo é nor- 
malmente representada em ppm (partes por 
milhão), que é uma forma de normalizar to- 
dos os espectros em função da intensidade 
do campo magnético do magneto onde se fez 
o espectro de uma amostra (como citado an- 
teriormente, a frequência de Larmor depende 
fortemente da intensidade do campo magné- 
tico). 

Os núcleos atômicos estão sempre ro- 
deados de diversos átomos e quase sempre 
estão ligados a outros átomos e, assim, são 
rodeados por uma nuvem eletrônica. Essa nu- 
vem eletrônica gera campos magnéticos se- 
cundários que são os principais responsáveis 
pela alteração do deslocamento químico de 
um núcleo em uma macromolécula (efeito 
denominado de blindagem nuclear). 


Através de um espectro de RMN pode- 
se observar seletivamente o sinal de diferen- 
tes núcleos em diferentes ambientes quími- 
cos, ou ainda ligados a diferentes átomos. 
Como exemplificado na Tabela 1-12, no caso 
da espectroscopia de proteínas por RMN de 
1 H, podem-se distinguir diversos grupos de 
átomos de hidrogênio pelo deslocamento 
químico destes. Assim, o deslocamento quí- 
mico é um dos mais importantes parâmetros 
em estudos por RMN. 

12.4. Acoplamento escalar 

Um dos fatores que influencia na mag- 
netização de um núcleo atômico é a sua liga- 
ção com outros átomos. Esta interação é 
conhecida por acoplamento escalar ou spin- 
spin, sendo representada pela constante de 
acoplamento n J ab , onde n é o número de liga- 
ções covalentes separando os núcleos a e b. 
Normalmente, o acoplamento escalar se es- 
tabelece entre átomos separados por até três 
ligações químicas. 

A constante de acoplamento se mani- 

Tabela 1-12: Distinção entre os átomos de 
hidrogênio dos aminoácidos comuns pelo 


deslocamento químico 
Wüthrich, 1986). 

(adaptado de 

Tipo de átomo de Deslocamento químico 

hidrogênio 

(ppm) 

ch 3 

0,9 -1,4 

CH 2 de V, 1, L, E, 0, M, P, 

16-2,3 

R, K 

CH 2 de C, D, N, F, Y, H, W 

2,7 -3,3 

CH 2 de 5, CH de T e CaH 

3,9 -4,8 

Outros CH alifáticos 

1,2 -3,3 

CH aromático 

6,5 -7,7 

NH de cadeia lateral de 

6,6 -7,7 

N, 0, K, R 

NH da ligação peptídica 

00 

0 

1 

CD 

00 

NH indólico 

10,2 
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festa em um espectro de RMN como um pico 
composto denominado multipleto (sinal divi- 
dido em duas ou mais componentes) e sua 
magnitude é indicada pela distância entre os 
picos de um multipleto, em hertz (Hz). Um 
fato importante para a determinação da es- 
trutura de moléculas por RMN é que as cons- 
tantes de acoplamento 3 J ab dependem do 
ângulo de torção entre os átomos acoplados 
(maiores detalhes no tópico “cálculo da es- 
trutura”). 

12.5. Efeito Overhauser nuclear 

A influência da magnetização de átomos 
não ligados por meio de uma ligação química, 
porém próximos, é o mais importante efeito 
na magnetização de um núcleo para a deter- 
minação da estrutura de proteínas por RMN. 

Tal fenômeno, denominado de efeito 
Overhauser nuclear (NOE), ocorre devido ao 
acoplamento dipolar (pelo espaço) entre dife- 
rentes núcleos, que envolve a transferência 
de magnetização entre os spins acoplados. 

A intensidade do acoplamento dipolar é 
proporcional ao inverso da sexta potência da 
distância entre os átomos, sendo que este ti- 
po de interação é normalmente detectado en- 
tre átomos distantes entre si em até 5 Â. 

12.6. Estrutura de proteínas 

Um dos passos para se determinar a 
estrutura tridimensional de macromoléculas 
por espectroscopia de RMN é o assinalamen- 
to (identificação) dos picos de ressonância. 

Em proteínas, devido à grande quantida- 
de de átomos, ocorre uma enorme sobreposi- 
ção de sinais nos espectros de RMN, o que 
torna impraticável o assinalamento dos picos 
de ressonância. Uma forma de resolver este 
problema é a utilização de espectroscopia bi- 
dimensional, através de uma série de sequên- 
cias de pulsos específicas. 

Os espectros bidimensionais essenciais 
para a determinação da estrutura de proteí- 
nas incluem o TOCSY e o NOESY, ambos de 
correlação homonuclear. Espectros de corre- 
lação heteronuclear podem ser incluídos no 


processo de determinação da estrutura de 
proteínas, de forma a facilitar o trabalho de 
assinalamento dos sinais de ressonância. 
Neste caso estão incluídos o HMQC (hetero- 
nuclear multiple quontum coherence) e HSQC 
( heteronuclear single quontum coherence). 

TOCSY 

Também conhecido por HOHAHA (Ho- 
monucleor Hortmonn-Hohn ), o experimento 
de TOCSY ( Totol Correloted Spectroscopy) 
consiste em uma sequência de pulsos que in- 
duzem a transferência da magnetização entre 
núcleos, como prótons ou carbono, via aco- 
plamento escalar. 

Uma vez que a transferência via acopla- 
mento escalar por mais de quatro ligações é 
praticamente nula e que o carbono da carbo- 
nila da ligação peptídica não possui próton li- 
gado, o 2D fHjHj-TOCSY de proteínas 
evidenciará interação somente entre prótons 
de cada aminoácido isoladamente (Figura 2- 
12). Neste espectro, cada pico (denominados 
de picos de correlação e representados por 
curvas de nível) indica a presença da intera- 
ção entre dois prótons via acoplamento es- 
calar. 0 conjunto dos sinais de correlação dos 
prótons de um aminoácido é denominado de 
sistema de spin (Figura 2-12). 

NOESY 

0 NOESY ( Nuceor Overhauser Effect 
SpectroscopY) é o espectro crucial para a 
determinação da estrutura de uma proteína. 
Neste tipo de experimento é induzida, através 
de uma sequência de pulso específica, a 
transferência de magnetização entre os nú- 
cleos via acoplamento dipolar, que depende 
da proximidade entre átomos, mesmo que 
não estejam ligados quimicamente. 

No espectro de 2D ( 1 H, 1 H]-NOESY apa- 
recerão sinais (os NOEs) que representam 
prótons próximos (distância menor do que 5 
Â). A intensidade dos NOEs depende de vários 
fatores, dentre eles, a distância entre os pró- 
tons acoplados (o que por uma aproximação 
simplista, pode representar diferentes limites 
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Figura 2-12: Prótons em acoplamento escalar de um fragmento peptídico contendo o resíduo de 
ácido glutâmico. As setas vermelhas e azuis indicam acoplamento S J HH e 2 J HH , respectivamente, 
que só podem ocorrer entre prótons de um mesmo aminoácido. A cadeia lateral dos 
aminoácidos que precedem e sucedem o glutamato é representada pela letra R. Ao lado do 
fragmento polipeptídico é apresentado o desenho esquemático de um espectro bidimensional 
de ( 1 H, 1 H]-TOCSY, evidenciando os picos de correlação dos prótons do glutamato (círculos 
vermelhos). Tal perfil representa um sistema de spin. Os picos em preto na diagonal do 
espectro são os sinais de ressonância de cada próton do glutamato. 


de distância entre os prótons). Desta forma, 
pode-se fazer uma aproximação semi-quanti- 
tativa entre a intensidade dos NOEs e a dis- 
tância que separa os prótons acoplados. 
NOEs intensos representam prótons separa- 
dos por 1,8 a 2,7 Â, NOEs de intensidade mé- 
dia representam prótons separados por 1,8 a 
3,4 Â e NOEs fracos, prótons separados por 
1,8 a 5,0 Â. 

Usando-se os dados de distância entre 
prótons de uma proteína indicadas pelos 
NOEs (restrições de NOE), pode-se finalmente 
criar um modelo estrutural desta macromo- 
lácula. 

Espectros 2D heteronucleares 

Nos experimentos bidimensionais hete- 
ronucleares (HMOC - Heteronudear Muitipte 
Quantum Coherence ou então HSOC - Hetero- 
nudear Single Quantum Coherence), é realiza- 
da a transferência de magnetização entre o 
spin do próton e o spin de outro núcleo atô- 
mico, através de somente uma ligação quími- 
ca. Nos espectros aparecerão picos de 
correlação entre próton e 13 C ou então entre 


próton e 15 N, sendo este sinal importante para 
a caracterização geral da conformação da 
proteína, assim como da qualidade da amos- 
tra a ser estudada. Na Figura 3-12 são exem- 
plificados dois espectros, um de uma proteína 
bem enovelada e estável, sendo por isso pas- 
sível de ter sua estrutura determinada por 
RMN em solução, assim como um de uma 
proteína desordenada e agregada. 

Espectros de tripla ressonância 

Em experimentos de tripla ressonância 
pode-se associar a magnetização entre dife- 
rentes núcleos para obter um mapeamento 
bem definido dos sinais de uma proteína. Co- 
mo por exemplo, com o espectro tridimensi- 
onal (3D) de HNCO, ter-se-á um sinal oriundo 
da transferência de magnetização entre pró- 
ton amídico, nitrogênio amídico e carbono da 
carbonila (Figura 4-12). Espectros mais com- 
plexos geralmente são usados para obter 
correlações entre os diversos núcleos de uma 
proteína e, assim, conseguir uma descrição 
(assinalamento) o mais completa possível da 
cadeia polipeptídica. Por exemplo, pode-se 
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Figura 3-12: Espectros bidimensionais heteronudeares 2D [H 15 N]-HSQC de duas proteínas, 
CDNF [Cerebral Dopamine Neurotrophic Factor, contendo 162 resíduos de aminoácidos ou 18,4 
kDa) e BEX3 ( Brain Expressed X-linked, contendo 124 resíduos de aminoácidos ou 14,5 kDa), que 
representam uma proteína bem enovelada e uma proteína com alto grau de desordem, 
respectivamente. 0 espectro de uma proteína bem enovelada apresenta diversos sinais bem 
dispersos e bem definidos, diferente do espectro de uma proteína desenovelada e com grande 
tendência de agregação, que exibe picos sobrepostos. Proteínas com caraterísticas espectrais 
similares a CDNF normalmente podem ter suas estruturas determinadas por RMN. 


fazer um espectro 6D HNCOCANH, onde a 
magnetização será transferida entre hidrogé- 
nios amídicos de aminoácidos vizinhos através 
da carbonila e do carbono alfa (Figura 5-12). 

Para se determinar os sistemas de spin 
de uma proteína, são necessários pelo menos 
quatro espectros de tripla ressonância (3D 
HNCO, 3D HNCACB, 3D CBCA(CO)NH e 3D 
HBHA(CO)NH) e dois espectros tridimensio- 
nais de TOCSY, um editado para 13 C e outro 
para 15 N. Alternativamente, é possível usar 
métodos ainda mais modernos de determina- 
ção de estruturas de proteínas por RMN, tais 
como a aquisição de dois espectros de quatro 
dimensões (4D e 4D) e um de cinco dimen- 
sões (5D). 

Em qualquer caso, a análise destes es- 
pectros de tripla ressonância deve ser com- 
plementada por espectros de ( 1 H, 1 H]-N0E5Y 
tridimensionais, editados para 13 C e 15 N que 
evidencia NOEs entre prótons, desde que um 
deles esteja ligado a um 13 C ou 15 N, respecti- 
vamente. 


12.7. Análise dos espectros de RMN 

Para qualquer estudo de proteínas por 
espectroscopia de RMN, cada sinal de resso- 
nância deve ser associado a um núcleo espe- 
cífico. Este processo é denominado de 
atribuição das ressonâncias. 

A atribuição das ressonâncias de uma 
proteína é obtida através da análise em con- 
junto dos espectros de NOESY, TOCSY, es- 
pectros bidimensionais heteronudeares e de 
tripla ressonância, onde o intuito é correlaci- 
onar cada um dos sinais de ressonância en- 
contrados nestes espectros com os prótons, 
carbonos e nitrogénios de cada um dos ami- 
noácidos da proteína. Neste processo, inicial- 
mente as ressonâncias de 1 H, 13 C e 15 N são 
classificadas (em HN, Ha, Hp, Ca, Cp e CO, 
dentre outros) de acordo com seus desloca- 
mentos químicos (Figura 6-12 e 7-12). 

Os espectros são então analisados por 
regiões de acordo com o tipo de grupamento 
químico esperado em cada faixa de desloca- 
mento químico. Apesar de serem observadas 
diferenças entre os sistemas de spin de cada 
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Figura 4-12: Segmento tripeptídico de uma 
proteína hipotética com a indicação de alguns 
caminhos de transferência de magnetização 
obtidos através de dois experimentos de 
tripla ressonância (3D HNCO em azul e 3D 
HN(CO)CA em vermelho). 0 sinal observado 
conterá informações de deslocamento 
químico de cada um dos átomos indicados, 
em um espectro de três dimensões (H 13 C e 
15 N). 

aminoácido, podem ocorrer sobreposições de 
picos de correlação nos espectros e altera- 
ções acentuadas de deslocamento químico de 
um núcleo atômico (em uma proteína bem 
estruturada, cada próton poderá estar locali- 
zado em um ambiente químico particular e, 
por isto, sofrer diferentes graus de blindagem 
nuclear), o que dificulta a análise dos espec- 
tros de RMN no que diz respeito à identifica- 
ção dos sistemas de spin. 

Em vista disto, o passo seguinte é iden- 
tificar alguns sistemas de spin bem caracte- 
rísticos nos espectros, levando-se em conta 
os valores de deslocamento químico médio 
dos prótons dos 13 C e dos 15 N aos quais os 
prótons estão ligados, das diversas proteínas 
já estudadas por RMN (por exemplo, note a 
diferença entre os deslocamentos químicos 
da alanina e glicina, Figura 7-12). 

Os aminoácidos com deslocamento quí- 
mico de M e 13 C mais característicos são: 

i) glicina, que possui dois Fia ligados a 
um Ca com deslocamento químico 
anormalmente baixo (-45 ppm contra 
-60 ppm dos outros Ca do restante dos 
aminoácidos): 


Figura 5-12: Segmento tripeptídico de uma 
proteína hipotética com a indicação do 
caminho de transferência de magnetização 
obtido por um experimento de tripla 
ressonância 6D HNCOCANH. 0 sinal 
observado conterá informações de 
deslocamento químico de cada um dos 
átomos indicados, em um espectro de seis 
dimensões (H 15 N, 13 C0, 13 Ca, 15 N e 1 H). Note 
que este tipo de espectro identifica a ligação 
de um sistema de spin (aminoácido) a outro. 

ii) treonina, que possui um único Hp com 
deslocamento químico anormalmente 
alto (-4 ppm contra os -2,5 ppm dos Hp 
dos outros aminoácidos) e uma metila 
com deslocamento químico de Hy em 
-1,5 ppm e intensidade de sinal alta; 

Ui) serina que possui dois Hp com des- 
locamento químico anormalmente alto 
(-4 ppm); 

iv) alanina, que possui uma CpH 3 que re- 
sulta em um pico de Hp intenso com 
deslocamento químico em -1,39 ppm. 

A partir da identificação destes aminoá- 
cidos bem característicos, nos espectros, 
buscam-se conectividades entre os sistemas 
de spin usando diversos espectros. 

Em se tratando de proteínas que não 
estão isotopicamente enriquecidas com 13 C e 
15 N, se usa espectros de NOESY para este 
processo de atribuição das ressonâncias as- 
sociados à sequência de aminoácidos da pro- 
teína em estudo. 0 objetivo é buscar NOEs 
entre prótons da cadeia principal de aminoá- 
cidos vizinhos que estão quase sempre a me- 
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Figura 6-12: Estrutura dos 20 aminoácidos naturais encontrados em proteínas. As 
nomenclaturas oficiais de cada átomo são evidenciadas. A porção referente à cadeia principal 
só é representada para a Pro, Gly e Ala. Para todos os outros aminoácidos, a cadeia principal é 
idêntica à da Ala, que está circulada por uma linha tracejada. Figura extraída com permissão do 
artigo “Recommendations for the presentation of NMR structures of proteins and nucleic acids 
(IUPAC© Recommendations 1998)” escrito por Markley e cols. 1998. 


nos de 5 Â de distância entre si (Figura 7-12). 
Neste sentido, procura-se conectividade do 
HN do aminoácido com sistema de spin atípico 
identificado (na posição i da sequência da pro- 
teína) com Ha, HN e, algumas vezes, Hp do 
aminoácido que o precede na sequência poli- 
peptídica (posição i - 1 ), assim como conecti- 
vidades do Ha, HN e às vezes do Hp do 
aminoácido identificado (posição i ) com o HN 
do aminoácido que o sucede (posição i + 1 ) 
(Figura 8-12). 

Em se tratando de proteínas isotopica- 
mente enriquecidas com 13 C e 15 N (obtidas 
normalmente quando produzidas em bactéri- 
as como Escherichia coli ou leveduras como 
Pichio pastoris crescidas em meios sintéticos 
contendo 15 NH 4 Q como única fonte de nitro- 
gênio e 13 C-Glicose ou 13 C-metanol como úni- 
cas fontes de carbono), as conectividades 


entre sistemas de spin também usualmente 
são obtidas por intermédio de interações es- 
calares, evidenciadas pelos espectros de tri- 
pla ressonância discutidos acima 
(exemplificados nas Figuras 4-12 e 5-12). 
Desta forma, ou usando espectros de NOESY, 
obtêm-se algumas sequências tripeptídicas 
atribuídas ao longo da sequência polipeptídica 
da proteína. 

A partir daí continua-se a atribuição se- 
quencial, levando em conta algumas caracte- 
rísticas dos aminoácidos menos atípicos em 
conjunto com a sequência 1 ária da proteína. A 
seguir são descritas brevemente algumas 
peculiaridades dos aminoácidos menos atípi- 
cos: 

v) valina, só possui um Hp e dois CyH 3 
com pico de Hy com intensidade relati- 
vamente alta; 
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Figura 7-12: Deslocamento químico de M e 13 C (em ppm) dos átomos dos 20 aminoácidos 
naturais encontrados em proteínas. As nomenclaturas oficiais de cada átomo são 
representadas por diferentes símbolos. Valores obtidos do “Biological Magnetic Resonance Data 
Bank” (http://www.bmrb.wisc.edu). As barras representam os desvios padrões. 


vi) leucina, possui longa cadeia lateral, o 
que pode resultar em uma faixa de si- 
nais de M com deslocamento químico 
baixo (-1,5 ppm); 

vii) isoleucina, apresenta padrão muito 
semelhante ao da leucina, porém ao 
contrário da outra, só possui um H(3; 

viii) cisteína e aspartato, suas cadeias 
laterais se restringem a dois H(3; 

ix) asparagina, através do espectro de 
NOESY identifica-se conexão entre HN, 
Ha e Hp com os prótons amídicos da ca- 
deia lateral (HS21 e H822), diferencian- 
do-a da cisteína e do aspartato: 

x) histidina, pelo espectro de NOESY é 
possível ver conectividade entre HN, Ha 
e Hp com H82 do anel aromático: 


xi) tirosina e fenilalanina, apresentam 
NOE entre Hp e HS do anel aromático: 

xii) triptofano, identificável por NOEs 
entre Hp e os H81 e Hs2 do anel aromá- 
tico (o último próton possui desloca- 
mento químico atípico de -10 ppm); 

xiii) metionina, o intenso pico metílico Hs 
é facilmente identificável e sua correla- 
ção com o resto do sistema de spin se 
dá somente via NOEs; 

xiv) glutamato, possui dois CH 2 na ca- 
deia lateral: 

xv) glutamina, além dos dois CH 2 possui 
conectividade via NOE entre Hy e pró- 
tons amídicos Hs21 e Hs22 da cadeia la- 
teral: 

xvi) arginina, identificável através dos 
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Figura 8-12: Segmento tripeptídico de uma 
proteína hipotética com a indicação dos NOEs 
sequenciais empregados para atribuir as 
ressonâncias dos três sistemas de spin a 
partir da treonina (resíduo na posição i da 
sequência da proteína). As cores das setas 
representam os tipos de NOEs sequenciais 
(azul - dpN; verde - daN; vermelho - dNN). A 
probabilidade de uma conectividade ser 
realmente sequencial é de aproximadamente 
66-79% para NOEs tipo dpN, 76-94% para 
dNN e 72-98 % para daN. Quando 

encontradas duas destas conectividades, a 
probabilidade delas representarem dois 
resíduos consecutivos é de 90-99%. 


picos de correlação entre CH 2 e NsH da 
cadeia lateral em adição aos picos entre 
HN, Ha e os CH 2 da cadeia lateral; 
xvii) lisina, como a leucina e a isoleucina 
possui longa cadeia lateral, o que pode 
resultar em uma faixa de sinais de 1 H, 
porém com deslocamento químico entre 
-1,5 e 3,0 ppm. Além disso, ao contrário 
dos outros dois aminoácidos, este pos- 
sui apenas CH 2 na cadeia lateral. 

Uma vez tendo todos ou quase todos 
sistemas de spin identificados (normalmente 
chega-se ao ponto de identificar 95% dos 
sistemas de spin), segue-se com o cálculo da 
estrutura 3D baseada nestes sistemas e nos 
sinais a serem identificados nos espectros de 
NOESY e transformados em restrição de dis- 
tância pelo programa de cálculo de estrutura. 

No decorrer do cálculo da estrutura, 
pode-se identificar mais facilmente possíveis 


atribuições erradas pelo aparecimento súbito 
de grandes violações de NOEs (restrições de 
distância impostas por NOEs que não conse- 
guem ser ajustadas em uma estrutura tridi- 
mensional calculada). Uma vez constatado 
um erro de atribuição, retorna-se ao passo de 
assinalamento sequencial, trocando-se os 
sistemas de spin atribuídos erroneamente. 

12.8. Cálculo da estrutura 

A determinação da estrutura tridimen- 
sional de macromoléculas por RMN é basea- 
da, principalmente, em informações de 
distâncias interprótons (os NOEs). Como ci- 
tado anteriormente, através das intensidades 
dos NOEs pode-se fazer uma aproximação da 
distância entre prótons envolvidos em aco- 
plamento dipolar, distância esta que varia de 
1,8 - 5 Â. 

Informações adicionais, como ângulos 
torcionais, podem ser bastante úteis na de- 
terminação da estrutura tridimensional de 
uma proteína, restringindo mais ainda o espa- 
ço conformacional adotado pelas estruturas 
tridimensionais calculadas. Os ângulos de di- 
edro cp (formado pelas ligações entre C-Ca i e 
C i _ / -N i ao longo da ligação entre Ca.-N ; . do re- 
síduo i) e x 1 (formado pelas ligações entre N- 
Ca^ e Xy-Cpz ao longo da ligação entre Ca-CP i 
do resíduo i, onde X pode ser O, C ou 5) po- 
dem ser inferidos via constante de acopla- 
mento J J HNHa e 5 / HaHB , respectivamente (Figura 
9-12). 

A constante de acoplamento V HNHc[ é in- 
dicada através da distância entre os picos do 
dubleto associado à correlação entre HN e Ha, 
em Hz. A partir daí convenciona-se que para 
5 / HNHc[ > 8 Hz tem-se um ângulo cp de aproxi- 
madamente -140° e para J J HNHa < 6 Hz tem-se 
ângulo cp de aproximadamente -60° (estes 
ângulos são característicos para segmentos 
peptídicos em conformação de fita p e hélice 
a, respectivamente). 

Os ângulos de diedro cp e \p (este último 
formado pelas ligações entre N i+/ -C ( . e Ca-N. 
ao longo da ligação entre Ca-C. do resíduo í) 
podem ser inferidos a partir do índice de des- 
locamento químico dos núcleos (CSI), uma vez 
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Figura 9-12: Fragmento de uma cadeia 
polipeptídica evidenciando os ângulos de 
diedro cp, y e x 1 - As linhas pontilhadas indicam 
as ligações às quais tais ângulos torcionais se 
referem. As setas vermelhas indicam a 
rotação das ligações que representam os 
vértices destes ângulos. 

que o deslocamento químico de um núcleo é 
sensível ao ambiente e a geometria das liga- 
ções químicas. 

Os deslocamentos químicos de 13 Ca e 
são os mais usados e melhor correlacio- 
nados com a presença de estruturas 2 árias em 
proteínas. Quando o deslocamento químico 
do 13 Ca de uma série de pelo menos quatro 
aminoácidos está aumentado em relação aos 
valores médios oriundos de diversas estrutu- 
ras proteicas (C5I +), é sugerida a presença de 
um segmento em hélice a, com ângulos de 
diedro cp e \\i próximos de -120° e -60°, res- 
pectivamente. No caso contrário, quando o 
deslocamento químico do 13 Ca de uma série 
de pelo menos quatro aminoácidos está dimi- 
nuído (C5I -), é sugerido a presença de um 
segmento em fita p, com ângulos de diedro cp 
e \| / próximos de -120° e 120°, respectivamen- 
te. 

No caso do deslocamento químico do 
o inverso ocorre, ou seja, quando seu 
deslocamento químico em uma série de pelo 
menos quatro aminoácidos está acima dos 
valores médios (C5I +), é indicação de fita p e 
quando está abaixo de um valor teórico (C5I 
-), é sugerida a presença de um segmento em 
hélice a. 0 cálculo do C5I, sigla para Chemical 


5hift Index, pode ser feito através do endere- 
ço eletrônico www.bionmr.ualberta.ca/bds/- 
software/csi/latest/csi.html. 

A análise do ângulo x 1 fornece impor- 
tante informação sobre a conformação da 
cadeia lateral dos aminoácidos, permitindo 
inclusive o assinalamento estéreo-específico 
dos dois prótons Hp (Tabela 2-12). A partir da 
rotação x 1 ao redor da ligação Ca-Cp, as con- 
figurações energicamente mais favoráveis 
são aquelas com o ângulo x 1 de 60°, 180° ou 
-60°. Como apresentado na Tabela 2-12, a 
identificação dos rotâmeros e o assinalamen- 
to estéreo-específico dos Hp se dá a partir da 
identificação das constantes de acoplamento 

Tabela 2-12: Caracterização dos três 

rotâmeros possíveis em torno da ligação Ca- 
Cp. As orientações gaúche e trans são 
referidas como g e t, onde os índices 2 e 3 
indicam os prótons Hp2 e Hp3. 0 padrão de 
intensidade dos NOEs é indicado para cada 
conformação. 


Características 




Conformação 




t 2 g 3 



Ha Ha Ha 


60° 180° -60° 


3 *4taHP2 

2, 6-5,1 

2, 6-5,1 

3 ^H«H[)3 (^ Z ) 

2, 6-5,1 

11,8-14,0 

NOE (Ha, Hp2) 

Forte 

Forte 

N0E (Ha, Hp3) 

Forte 

Fraco 

NOE (HN, Hp2) 

Fraco 

Forte- 

médio 

NOE (HN, Hp3) 

Forte- 

médio 

Forte 


11,8-14,0 
2, 6-5,1 
Fraco 
Forte 
Forte 
Fraco 
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e ^HaII|i3 e ^OS NOES ^ H p 1HN , ^np2HN’ 
^HplHa e ^H|i2H«- 

Adicionalmente, a informação de ligação 
de hidrogênio inferida a partir da taxa de troca 
de próton amídico pode ser agregada ao cál- 
culo da estrutura. As estruturas 2 árias regula- 
res estabilizadas por ligações de hidrogênio 
“protegem” os prótons amídicos envolvidos 
nestas estruturas, o que se caracteriza por 
uma baixa taxa de troca destes por prótons 
do solvente. 

Para evidenciar tais prótons “protegi- 
dos”, dissolve-se a amostra a ser analisada 
em 2 H 2 0 e faz-se um espectro bidimensional 
de 1 H. Se o próton da molécula analisada não 
estiver “protegido” ele trocará quase que 
imediatamente por deutério, proveniente da 
2 H 2 0, desaparecendo seu sinal nos espectros 
de ^-RMN. (o deutério possui frequência de 
ressonância bem distinta do seu isótopo). A 
identificação dos prótons com baixa taxa de 
troca por deutério permite usar restrições 
estruturais de pontes de hidrogênio no cálculo 
da estrutura da macromolécula em estudo. 

As restrições de distância obtidas por 
NOEs, assim como de distância entre prótons 
envolvidos em ligações de hidrogênio inferi- 
das pela taxa de troca de hidrogênio por deu- 
tério e as restrições de ângulos cp, y e 
inferidas pelas constantes de acoplamento e 
CSI, são então usadas em protocolos de dinâ- 
mica molecular realizados por programas 
específicos para ajustar a estrutura da prote- 
ína a estas restrições, levando em conta a 
obediência à geometria ideal de ângulos e 
comprimento de ligações químicas e dos raios 
de van der Waals dos átomos. 

Nestes programas, as moléculas são 
inicialmente submetidas a uma condição de 
alta energia cinética (temperaturas de 
-50.000 K). Nesta situação, as moléculas es- 
tão totalmente desprovidas de qualquer es- 
trutura tridimensional predominante, porém 
já agregam parâmetros estruturais providos 
por restrições empíricas (determinadas por 
um campo de força). Gradualmente, é de- 
crescida a temperatura do sistema (geral- 
mente até 0 K), ao passo que são adicionadas 
as restrições experimentais. 


Através deste procedimento, o progra- 
ma busca conformações da molécula que sa- 
tisfaçam o máximo possível às restrições 
empíricas e experimentais. Finalmente é per- 
mitida uma “relaxação” da molécula (passo 
de minimização e refinamento estrutural) em 
uma temperatura ainda baixa, porém sob 
menor influência das restrições de NOE e de 
van der Waals, de forma a corrigir pequenas 
imperfeições conformacionais da estrutura 
como ligações excessivamente torcidas. 
Neste passo final, a “relaxação” da estrutura 
é evidenciada pela diminuição da energia do 
sistema (energias diretamente relacionadas 
com o grau e número de violações das restri- 
ções empíricas e experimentais). 

Estes passos são repetidos várias vezes, 
de forma a obter um conjunto de estruturas 
(normalmente em torno de 20 estruturas) 
que são avaliadas, com auxílio de programas, 
quanto à existência de conformações impró- 
prias ou improváveis. Esta família de estrutu- 
ras determinadas por espectroscopia de RMN 
representa uma estrutura tridimensional com 
pequena variação do espaço conformacional, 
que é representada por cada uma das estru- 
turas calculadas (exemplo na Figura 10-12). 
Estruturas com alta resolução obtidas por 
RMN geralmente possuem um desvio dos 
átomos da cadeia principal da proteína em 
relação a uma estrutura média de aproxima- 
damente 0,6 Â. 

12.9. Conceitos-chave 

Constante de Boltzmann: é uma constante que 
relaciona energia, no nível de partícula in- 
dividual, com temperatura. Tem um valor 
aproximado de 1,3806 x IO -23 J/K. 

Constante de Planck: é uma constante de pro- 
porcionalidade entre energia e frequência. 
Tem um valor aproximado de 6,6261 x 10" 
34 J.s. 

Constante giromagnética: é a razão entre o 
momento de dipolo magnético e o mo- 
mento angular, sendo representada nor- 
malmente pelo símbolo gama (y). Cada 
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Figura 10-12: Estrutura 3D da proteína Psdl determinada por RMN. Nesta figura é mostrada uma 
sobreposição de vinte estruturas obtidas como descrito acima, usando proteína nativa, não 
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundárias. Em B, 
são mostrados apenas os átomos da cadeia principal (verde - carbono, azul - nitrogênio e 
vermelho - oxigênio). Em C, são mostrados todos os átomos (cinza - hidrogênio e amarelo - 
enxofre). As estruturas estão com o mesmo alinhamento. 


núcleo atômico possui uma constante gi- 
romagnética específica, sendo a principal 
razão para que cada núcleo atômico pos- 
sua uma frequência de RMN distinta em 
um mesmo campo magnético externo. 

Correlação heteronuclear: se diz quando é con- 
seguida uma relação entre núcleos de ti- 
pos distintos de átomos em uma molécula. 
Pode ser correlação escalar ou dipolar, ou 
seja, dependente ou não dos átomos es- 
tarem associados por intermédio de liga- 
ções químicas. 

Correlação homonuclear: se diz quando é con- 
seguida uma relação entre núcleos do 
mesmo tipo atômico em uma molécula. 
Pode ser correlação escalar ou dipolar, ou 
seja, dependente ou não dos átomos es- 
tarem associados por intermédio de liga- 
ções químicas. 

Projeções de Newman: forma de representação 
de moléculas que evidencia conformações 
em relação a uma ligação carbono-carbo- 
no tida como referência. O carbono proxi- 
mal é representado como um ponto e o 
distai como um círculo (ver Tabela 2-12). 

Rotâmero: é uma molécula isomérica em rela- 
ção à rotação ao redor de uma ligação 
química simples, normalmente entre car- 


bonos com configuração de orbital de va- 
lência tipo sp 3 . 

Spin: em mecânica quântica e física de partícu- 
las, spin é uma forma de momento angu- 
lar intrínseca de partículas elementares, 
incluindo o núcleo atômico, quando apli- 
cada para RMN. Em uma das formas de 
representação, o spin é uma quantidade 
vetorial com magnitude e direção. O spin 
nuclear é identificado pelo número quân- 
tico de spin e para existir o efeito de RMN 
o spin deve ser diferente de zero, condição 
alcançada quando o numero de prótons 
e/ou nêutrons é ímpar. 

Transformada de Fourier: é uma manipulação 
matemática normalmente usada para 
transformar funções temporais f(t), em 
uma função de frequência, cuja unidade 
geralmente é Hertz. 

14.10. Leitura recomendada 
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SERRANO, P.; et ai. The J-UNIO protocol for 
automated protein structure determination 
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13.1. Introdução 

A cristalografia de raios-X é uma ciência 
dedicada ao estudo da estrutura molecular e 
cristalina, bem como das relações entre essa 
estrutura e suas propriedades. A cristalogra- 
fia de raios-X moderna apresenta aplicações 
amplas nas ciências dos materiais, química, 
mineralogia, física, matemática e biologia. Sua 
aplicação para determinação da estrutura 3D 
de biomoléculas, com destaque para as pro- 
teínas, deu origem à cristalografia de proteí- 
nas, caracterizada como um processo 
complexo que engloba uma variedade de es- 
tratégias e métodos tradicionais e modernos, 
integrando especialidades como a física, quí- 
mica, biologia, bioquímica e computação. 

A cristalografia de proteínas determi- 
nou a criação de uma nova área do conheci- 
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mento, denominada biologia estrutural. A 
biologia estrutural encontra-se na interface 
entre a biologia molecular, a bioquímica e a 
biofísica, e tem como foco a investigação da 
estrutura de macromoléculas. A partir desta, 
busca-se elucidar a relação entre a estrutura 
e a função de uma determinada molécula. Por 
exemplo, a aplicação de métodos cristalográ- 
ficos em macromoléculas biológicas permitiu 
o conhecimento da disposição dos átomos 
que constituem a estrutura 3D das moléculas 
de DNA, RNA e proteínas. Particularmente no 
caso desta última família de biomoléculas, 
além do entendimento do funcionamento dos 
organismos e das bases moleculares para a 
vida, as informações oriundas da cristalogra- 
fia vêm sendo extremamente importantes no 
desenvolvimento de novos fármacos, como 
no caso de inibidores da protease do HIV e de 
moduladores de proteínas acopladas à prote- 
ína G (GPCR, G protein-coupLed receptor). 

Os estudos cristalográficos são compo- 
nentes fundamentais para o desenvolvimento 
e a aplicação de métodos em bioinformática, 
incluindo a modelagem molecular e o plane- 
jamento de fármacos baseado na estrutura 
de receptores (SBDD, structure-bosed drug 
design). De fato, diversos métodos em bioin- 
formática utilizam como pré-requisito o co- 
nhecimento 3D detalhado da macromolécula 
em estudo. Essa informação é geralmente 
adquirida a partir de estruturas depositadas 
em bases de dados públicos, onde podem ser 
acessadas livremente, dentre os quais se 
destaca o PDB ( Protein Doto Bank). 

Embora a estrutura 3 D de macromolé- 
culas pode ser obtida através de diversos 
métodos experimentais, tais como a resso- 
nância magnética nuclear (RMN, ver capítulo 
12) e a criomicroscopia eletrônica, a cristalo- 
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grafia de raios-X ocupa papel de destaque. Is- 
to pode ser evidenciado, por exemplo, no fato 
de que em janeiro de 2014 o PDB apresentava 
aproximadamente 97.ÜÜÜ estruturas de ma- 
cromoléculas depositadas (incluídas proteí- 
nas, ácidos nucleicos, complexos macromo- 
leculares e polissacarídeos), dentre as quais 
aproximadamente 90% tiveram sua estrutura 
3D determinada pelo método de cristalografia 
de raios-X (Tabela 1-13). 

Os métodos e estratégias cristalográfi- 
cas para o estudo de macromoléculas evolui- 
ram significativamente nos últimos anos. 
Devido aos rápidos avanços tecnológicos, as 
coletas de dados cristalográficos que eram 
realizadas exclusivamente em fontes caseiras 
(por exemplo, através de um ânodo rotatório) 
passaram a ser executada em fontes de alto 
brilho e intensidade, tais como laboratórios de 
luz síncrotron. Essa evolução tem como re- 
sultado direto um crescimento exponencial no 
número de estruturas de macromoléculas 
determinadas anualmente, conforme verifi- 
cado pelo número de estruturas depositadas 
no PDB (Figura 1-13). Além disso, esse cenário 
tem contribuído para o desenvolvimento de 
duas abordagens distintas para o estudo de 
macromoléculas: i) tradicional e ií) larga es- 
cala. 

A abordagem tradicional consiste em 
resolver estruturas de um pequeno conjunto 
de macromoléculas e seus complexos em um 
ambiente onde há ampla integração dos es- 


tudos cristalográficos com métodos bioquí- 
micos, biofísicos e de química medicinal. Atu- 
almente, projetos extremamente desa- 
fiadores em cristalografia têm como foco a 
determinação das estruturas de vírus, proteí- 
nas de membrana e complexos multimolecu- 
lares (por exemplo, envolvendo pro- 
teína-proteína, proteína-DNA e prote- 
ína-RNA). 

Já a abordagem em larga escala consis- 
te na elucidação do genoma estrutural atra- 
vés da determinação da estrutura 3D do 
maior número possível de proteínas consti- 
tuintes de um determinado organismo. 0 de- 
senvolvimento da cristalografia em larga 
escala ( high-throughput crystoilogrophy) foi 
substancialmente beneficiado pelo surgimen- 
to de métodos automatizados para a cristali- 
zação e coleta de dados, bem como pelo 
desenvolvimento de fontes de luz de alto bri- 
lho e intensidade (por exemplo, síncrotrons de 
3- geração como o European Synchrotron 
Rodiotion Fociiity - ESRF, na França, o 
Advanced Photon Source - APS, nos EUA e o 
SPring-8, no Japão). 

As estruturas 3D de proteínas determi- 
nadas por métodos cristalográficos são fre- 
quentemente o ponto de partida para a 
construção de modelos moleculares que vi- 
sam elucidar a estrutura e função de proteí- 
nas homólogas (como visto no capítulo 7) ou 
o planejamento de novas moléculas bioativas 
(como visto no capítulo 9). Portanto, o co- 


Tabela 1-13: Estruturas de macromoléculas depositadas no PDB (estatísticas de janeiro/2014). 


Método 

experimental 

Proteínas 

Ác. nucleicos 

Complexos 

proteína-DNA/RNA 

Outras 

macromoléculas 

Total 

Cristalografia 

79.922 

1.497 

4.162 

4 

85.585 

RMN 

8.990 

1.065 

197 

7 

10.259 

Microscopia 

496 

51 

170 

0 

717 

eletrônica 






Híbridos 

55 

3 

2 

1 

61 

Outros 

153 

4 

6 

13 

176 

Total 

89.616 

2.620 

4.537 

25 

96.768 
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Número Total de Estruturas Depositadas 


90.000 

80.000 

70.000 

60.000 

50.000 

40.000 

30.000 


Ml 


(N-a-tDCDOIN^lDCOOrN-a-lUCOOrM^UJOOOrN 

r^r^aacDcDCDaocncncrtcncrioaaoo^p; 
aja ; cjOTffjajajGícnCTjajajajaioaooo ^}^ 
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Figura 1-13: Número de estruturas de 

macromoléculas depositadas no PDB (dados 
1972-2014, http://www.rcsb.org). 

nhecimento dos fundamentos, vantagens e Li- 
mitações da cristalografia de raios-X é funda- 
mental para a seleção criteriosa de 
estruturas apropriadas para os estudos em 
bioinformática. 

Adicionalmente, esse conhecimento nos 
permite uma melhor compreensão e avalia- 
ção dos modelos 3 D de macromoléculas de- 
positados nos bancos de dados. Desse modo, 
o presente capítulo busca oferecer uma des- 
crição dos métodos cristalográficos para a 
determinação da estrutura 3D de proteínas, 
explorando seus princípios e fundamentos, 
com especial destaque para os critérios que 
devem ser utilizados para a obtenção de uma 
estrutura por cristalografia de raios-X, bem 
como para avaliação da qualidade do modelo 
estrutural construído. 

13 . 2 . Obtenção de proteínas 

Uma das etapas fundamentais da biolo- 
gia estrutural é a obtenção do alvo molecular 
em quantidade e pureza suficiente para os 
estudos cristalográficos (em torno de mili- 
gramas de proteína com teor de pureza maior 
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que 95%). 

Para contornar este desafio, os projetos 
pioneiros de cristalografia de macromolécu- 
las (por exemplo, na cristalização da mioglo- 
bina em 1958, da hemoglobina em 1960, da 
lisozima em 1965 e da insulina em 1969) utili- 
zaram proteínas extraídas de fonte natural 
(nos casos mencionados, músculo esquelético 
de baleia cachalote, sangue de cavalo, clara 
de ovo de galinha, pâncreas de porco, res- 
pectivamente). Entretanto, a utilização de 
fontes naturais para obtenção da macromo- 
lécula geralmente inclui algumas limitações, 
dentre as quais destacam-se: 

i) baixa concentração: a pequena quan- 
tidade de proteína produzida na células, 
somada à distribuição diferenciada nos 
tecidos do organismo em estudo acar- 
retam em baixa concentração de proteí- 
na para os estudos estruturais: 

ii) isoformas e modificações pós-tradu- 
cionais: a expressão de isoformas de 
uma proteína, aliada aos diferentes ní- 
veis de modificações pós-traducionais, 
aumentam a heterogeneidade da amos- 
tra e dificultam a separação dos com- 
ponentes da solução. Essas 
características apresentam impacto 
significativo na obtenção de proteína 
com elevado teor de pureza e, conse- 
quentemente, na qualidade e formação 
dos cristais. 

Apesar dessas limitações, algumas 
proteínas específicas continuam sendo obti- 
das a partir de fontes naturais, com destaque 
para anticorpos, proteínas de membrana e 
proteínas fúngicas envolvidas no processo de 
produção do bioetanol. Contudo, a vasta mai- 
oria das proteínas investigadas por métodos 
cristalográficos são provenientes de sistemas 
heterólogos (isto é, expressão realizada em 
organismo hospedeiro diferente do organis- 
mo alvo) baseados em estratégias de ex- 
pressão que utilizam a tecnologia do DNA 
recombinante. 

0 avanço das técnicas de DNA recombi- 
nante e engenharia genética, com destaque 
para o desenvolvimento da reação em cadeia 
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da polimerase (PCR, polymerase choin 
reactiorí) permitiram o desenvolvimento de 
métodos de expressão heteróloga altamente 
eficientes para a produção de proteína pura e 
homogênea para os estudos estruturais. 0 
emprego dessa tecnologia determinou mu- 
danças significativas nos paradigmas da cris- 
talografia de proteínas, permitindo que a 
investigação estrutural de proteínas, anterior- 
mente baseada em baixíssima quantidades de 
proteína obtidas no organismo alvo ou depen- 
dentes do metabolismo celular, pudesse ser 
conduzida rotineiramente. Portanto, o domínio 
de técnicas e métodos bioquímicos e de biolo- 
gia molecular tornaram-se componentes es- 
senciais para a determinação estrutural de 
macromoléculas biológicas. 

Nas próximas seções serão apresenta- 
dos os métodos mais utilizados para produ- 
ção de proteína em sistema de expressão 
heterólogo para os ensaios de cristalização. 
Contudo, é importante mencionar que, embo- 
ra existam protocolos disponíveis para todas 
as etapas envolvidas (por exemplo, clona- 
gem, expressão, purificação e cristalização), 
adaptações podem e devem ser realizadas 
para atender as particularidades da proteína 
em estudo. 

A montagem de um sistema de expres- 
são heteróloga necessita inicialmente do 
fragmento de DNA responsável pela codifica- 
ção da proteína em estudo. De modo geral, a 
pesquisa minuciosa de informações da litera- 
tura indica dados relevantes para o desenvol- 
vimento de protocolos otimizados de 
obtenção da proteína alvo. Nesse sentido, um 
protocolo de produção de uma proteína ho- 
móloga pode ser adaptado e utilizado como 
ponto de partida para o desenvolvimento de 
um novo método de obtenção da proteína de 
interesse. Na ausência desse tipo de informa- 
ção qualificada, dados bioquímicos e molecu- 
lares como ambiente molecular da proteína in 
vivo, presença de parceiros fusionados, domí- 
nios estruturais, presença de regiões flexíveis 
e peptídeos de sinalização são extremamente 
úteis para o planejamento da nova construção 
genética. 

Por exemplo, a descrição detalhada dos 


domínios constituintes de uma proteína é uma 
informação valiosa que contribui substancial- 
mente para o desenvolvimento de um siste- 
ma de expressão heterólogo robusto. 
Domínios proteicos, tipicamente, apresentam 
capacidade de enovelamento independente, 
logo construções genicas contendo somente 
um domínio podem ser estabelecidas. 

Além disso, pode-se utilizar dados mo- 
leculares para truncar um domínio em posi- 
ções específicas e, assim, remover alças 
flexíveis que dificultariam o processo de cris- 
talização. Portanto, o planejamento da cons- 
trução gênica deve ser realizado com base 
nos conhecimentos adquiridos sobre o alvo 
molecular em estudo e nos objetivos especí- 
ficos que se deseja alcançar. Nesse contexto, 
é fortemente recomendada a utilização de 
ferramentas de bioinformática para auxiliar o 
planejamento de construções genéticas de 
alta eficiência. 

Um exemplo de aplicação do conheci- 
mento molecular no desenvolvimento de 
construções gênicas para estudos cristalo- 
gráficos pode ser observado nos receptores 
nucleares. Estes receptores são proteínas 
multidomínios de grande interesse científico, 
pois exercerem função central no controle da 
expressão gênica. A complexa organização 
estrutural dos receptores nucleares, repre- 
sentada pelos seus diferentes domínios es- 
truturais (Figura 2-13), exigiu uma análise 
detalhada para a obtenção de construções 
gênicas capazes de expressar de modo efici- 
ente os diferentes segmentos. As constru- 
ções planejadas expressaram com sucesso 
os domínios isolados dos receptores nuclea- 
res, tais como o domínio de complexação ao 
ligante do receptor RAR (PDB ID 3LBD) e o 
domínio isolado de ligação ao DNA do recep- 
tor GR (PDB ID 3FYL), bem como a estrutura 
integral do receptor PPARy (PDB ID 3DZU) 
que, além de revelar a organização estrutural 
do receptor, confirmou a integridade e rele- 
vância dos domínios isolados. 

As informações funcionais e estruturais, 
extremamente necessárias para elaboração 
de construções gênicas eficientes, podem ser 
usualmente obtidas através de métodos de 
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Geral N AF1 DBD LDB jHC 

GR N AF1 DBO LDB C 

LXRtt N AF1 DBD LDB C 

PPARy N AF1 DBD LDB C 

Figura 2-13: Distribuição representativa dos 
domínios de receptores nucleares GR 
(receptor de glicocorticoide, do inglês 
giucocorticoid receptor), LXRa (receptor 
hepático Xa, do inglês liver Xa receptor ) e 
PPARy (receptor y ativado por proliferador de 
peroxissomo, do inglês peroxisome 
proliferator-activated receptor y). N indica o 
domínio N-terminal, que contém a região com 
a função de ativação (AF, do inglês octivotion 
function), o domínio de ligação ao DNA (DBD, 
do inglês DNA binding domoirí) e o domínio de 
complexação ao ligante (LBD, do inglês iigond 
binding domoirí). 

bioinformática. Por exemplo, há diversos mé- 
todos disponíveis para predição de proprieda- 
des moleculares importantes, como 
distribuição de estrutura 2 ária , reconhecimen- 
to de domínios, presença de peptídeos de si- 
nalização, hélices transmembranares, 
ligações dissulfeto intramoleculares, regiões 
flexíveis e desordenadas, dentre outras. 

Construções gênicas 

0 planejamento e a montagem de cons- 
truções gênicas para obtenção de proteínas 
envolvem diversos métodos de manipulação 
de DNA e sistemas de expressão. Dentre as 
diversas abordagens disponíveis para tal, du- 
as estratégias de clonagem serão discutidas 
adiante: i) clonagem clássica em sistema de 
expressão bacteriano, e ü) clonagem em sis- 
tema independente de ligação - LIC ( iigotion - 
independent cioning). Adicionalmente, estes 
métodos vêm sendo facilitados pela disponi- 
bilidade cada vez maior de DNA sintético para 
aquisição diretamente de empresas especiali- 
zadas. 

A clonagem clássica inicia-se com o pla- 
nejamento dos oligonucleotídeos iniciadores 


(primers) e da seleção do DNA molde. Os oli- 
gonucleotídeos iniciadores são utilizados para 
a amplificação por PCR do gene de interesse a 
partir do DNA molde. Geralmente, utiliza-se 
DNA genômico para organismos procarióticos 
e bibliotecas de DNA complementar (cDNA) 
para organismos eucarióticos (Figura 3-13). 

0 sucesso na amplificação do gene é 
verificado através de análise eletroforética 
em gel de agarose. Após purificação, proce- 
de-se com a ligação do fragmento amplifica- 
do em vetor de clonagem (por exemplo, 
TOPO® - Invitrogen). Vetores de clonagem 
apresentam alto número de cópias por célula 
e são utilizados para a transformação de 
bactérias específicas, tais como DFI5a, DhIOB 
e XLIblue, as quais são empregadas para 
propagação do gene de interesse e forneci- 
mento de DNA plasmidial. 0 fragmento de in- 
teresse é excisado do material obtido através 
da digestão com endonucleases de restrição. 
Essas enzimas reconhecem sequências de 
nucleotídeos específicas, inseridas no frag- 
mento pelos oligonucleotídeos iniciadores, 
gerando terminais coesivos ou stick enc/s. 

0 fragmento isolado, obtido por sepa- 
ração eletroforética, é posteriormente ligado 
em vetor de expressão. A família de vetores e 
derivados do sistema pET® (Novagen) estão 
entre os mais utilizados para essa finalidade. 
Esses vetores são previamente tratados com 
as mesmas endonucleases para a criação de 
terminais complementares ao fragmento, o 
qual é ligado ao vetor com auxílio de uma 
DNA ligase. 0 plasmídeo elaborado é então 
introduzido em bactérias de propagação e, 
após confirmação da integridade da constru- 
ção gênica, os plasmídeos são utilizados para 
a transformação de cepas bacterianas espe- 
cíficas para expressão proteica. 

0 método clássico é bastante robusto e 
amplamente empregado como alternativa 
atrativa na clonagem de genes. Contudo, inclui 
diversas etapas e detalhes que limitam sua 
aplicação em média e larga escala. Nesse 
sentido, tendo em vista a necessidade de au- 
mentar a taxa de sucesso na obtenção de 
proteína expressa na forma solúvel, com alta 
pureza e em grande quantidade, novas estra- 
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Amplificação 


1. Reação de PCR para amplificação do 
gene de interesse. 



2. Ligação do fragmento amplificado em 
um vetor de clonagem mediada por DNA 
ligase. 



3. Excisão do fragmento do vetor através 
da digestão com enzimas endonucleases 
de restrição. 



4. Ligação, utilizando uma DNA ligase. do fragmento digerido 
em um vetor de expressão previamente tratado com as mesmas 
enzimas de restrição, apresentando assim complementaríedade 
dos terminais coesivos. 



5. Confirmação da integridade da construção por sequenciamento 
e transformação da cepa bacteriana de expressão. 


Figura 3-13: Esquema geral do método de clonagem clássica para expressão heteróloga de 
proteína. 


tágias em biologia molecular, capazes de ex- 
plorar diferentes possibilidades de expressão, 
foram desenvolvidas. 

As construções gênicas planejadas pas- 
saram então a ser desenvolvidas em paralelo, 
aumentando-se as chances de sucesso na ob- 
tenção de proteína com as características 
adequadas para os estudos cristalográficos 
empregando o denominado sistema de clona- 
gem independente de ligação (LIC) (Figura 4- 
13). 

0 sistema LIC diferencia-se do sistema 
clássico pela independência de uma etapa de 
ligação com DNA ligase. Adicionalmente, em 
algumas adaptações desse sistema pode-se 
evitar também o uso de endonucleases de 
restrição. Além disso, apresenta como vanta- 
gens: i ) facilidade no planejamento do oligo- 
nucleotídeo iniciador, que inclui uma 
sequência específica do sistema para deter- 
minado conjunto de vetores, ií) disponibilida- 
de de um número significativo de vetores 
preparados para este sistema, e Ui) versatili- 
dade na obtenção de construções gênicas va- 
riadas, não havendo a necessidade de etapas 
adicionais ou particularidades na utilização de 


um vetor determinado. 

Em linhas gerais, após a amplificação e 
obtenção do fragmento de interesse através 
da reação de PCR com os oligonucleotídeos 
iniciadores específicos, trata-se o fragmento 
com a enzima T4 DNA polimerase na presen- 
ça de um único tipo de nucleotídeo (por 
exemplo, dATP). A T4 DNA polimerase possui 
atividade exonuclease 3’-5’ intrínseca, logo 
esta aplicação favorece a formação de extre- 
midades salientes ou overhang s, comple- 
mentares aos vetores utilizados. Em seguida, 
o fragmento é adicionado ao vetor escolhido, 
previamente tratado com T4 DNA polimerase 
e mantido em contato a temperatura ambi- 
ente. Por fim, essa mistura é utilizada na 
transformação da bactéria de propagação. 
Devido ao número de bases que são empare- 
lhadas entre vetor e fragmento, através de 
suas saliências, não se faz necessária a utili- 
zação da DNA ligase, sendo a ligação cova- 
lente entre vetor e fragmento estabelecida 
pelo próprio sistema de reparo da bactéria 
transformada. 
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Amplificação 

1. Reação de PCR para amplificação do gene de 2. Tratamento do fragmento amplificado 
interesse. com a enzima T4 DNA polimerase. 



DNA 



3. Ligação do fragmento e vetor tratado, 
independente de ligase. 



4. Confirmação da integridade da construção 
por sequenciamento e transformação de 
cepa bacteriana de expressão. 


Figura 4-13: Esquema geral do método de clonagem independente de ligação (LIC) para 
expressão heteróloga de proteína. 


13. 3. Expressão 

Atualmente, a expressão heteróloga é a 
fonte primária de produção de proteínas. 
Exemplos de organismos hospedeiros que 
“emprestam” sua maquinaria celular para a 
expressão proteica incluem bactérias, proto- 
zoários, fungos, células de insetos e de ma- 
míferos e sistema de expressão independente 
de célula hospedeira (ceU-free expressiorí), 
também conhecido como expressão in vitro. 

Em um experimento padrão de expres- 
são heteróloga de proteína as células hospe- 
deiras são cultivadas até atingirem uma 
biomassa crítica, medida pela densidade ópti- 
ca (DO) da cultura. A partir desse momento 
inicia-se o procedimento de indução da ex- 
pressão da proteína de interesse. Nos vetores 
bacterianos, um dos mecanismos para con- 
trole de indução é o operon íoc, de forma que 
a presença de lactose ou derivados (como a 
alolactose) favorece a indução da expressão 
da proteína através da ligação da alolactose 
ao repressor do operon. Análogos otimizados 
da alolactose foram desenvolvido e, dentre 
eles, o derivado mais utilizado é o isopropil-1- 


tiol-p-D-galactopiranosídeo (IPTG). 0 IPTG se 
liga ao repressor íoc e induz a superexpressão 
da proteína de interesse. Como a bactéria não 
é capaz de metabolizá-lo, a concentração do 
agente indutor permanece constante, favore- 
cendo a manutenção dos níveis de expressão. 

Parâmetros como meio de cultura, aeração, densi- 
dade óptica antes da indução, concentração de agente 
indutor, temperatura e tempo de expressão afetam 
significativamente a produção de proteína solúvel. 
Dentre eles, a temperatura e a concentração do agente 
indutor estão entre os parâmetros de maior impacto 
sobre a expressão e, portanto, devem ser cuidadosa- 
mente avaliados. Tipicamente, experimentos conduzi- 
dos em temperaturas mais baixas (menores que 37°C) 
determinam uma redução na taxa de expressão. Con- 
tudo, favorecem a obtenção de proteína enovelada 
corretamente. 

Paralelamente, diferentes concentrações do agente 
indutor devem ser testadas para a identificação das 
condições ideais que determinam um nível de expres- 
são adequado para os estudos cristalográficos. Entre- 
tanto, frequentemente, a proteína de interesse não á 
obtida na forma solúvel, seja pelo enovelamento incor- 
reto ou pelo acúmulo em corpos de inclusão. Nesses 
casos, pode-se recuperar a proteína da fração insolú- 
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vel através de técnicas de solubilização dos corpos de 
inclusão, como através do emprego de detergentes, e 
de re-enovelamento ( refolding ). 

Por outro lado, se o enovelamento não foi atingido 
com sucesso ou a proteína expressa é não funcional 
devido à ausência de modificações pós-traducionais, 
uma alternativa é a expressão em células eucarióticas. 
Para esses casos são recomendados sistemas de ex- 
pressão em células de fungo, protozoário, mamífero 
ou inseto. 

A escolha do sistema de expressão (ve- 
tor + organismo de expressão) depende de 
vários fatores. Por exemplo, em relação ao 
vetor de expressão, dependente do organis- 
mo de expressão, há diversas opções disponí- 
veis com estruturas moleculares similares, 
mas que diferem em relação ao mecanismo 
de regulação, sítios de restrição, antibiótico 
de resistência, presença de proteínas acessó- 
rias e facilitadores de purificação. 

Em relação à escolha do organismo de 
expressão, um dos aspectos mais importan- 
tes a ser considerado consiste na necessidade 
de modificações pós-traducionais, isto á, mo- 
dificações na estrutura proteica após síntese 
como enovelamento mediado por chapero- 
nas, formação de pontes dissulfeto, glicosila- 
ção e etc. Por exemplo, o sistema bacteriano 
(procariótico) não é capaz de glicosilar proteí- 
nas de eucariotos. Portanto, caso seja neces- 
sária a realização desta ou modificações 
pós-traducionais não realizadas por bactérias 
deve-se optar por sistemas mais adequados 
para essa finalidade. 

Devemos observar que a ausência de 
modificações pós-traducionais pode determi- 
nar a produção de uma proteína não funcional 
ou, até mesmo, enovelada incorretamente. 
Por outro lado, estratégias de cristalização 
podem explorar características como a inca- 
pacidade do sistema bacteriano de realizar 
glicosilações como as vistas em eucariotos. 
Nesse sentido, a ausência de modificações 
pós-traducionais pode ser benéfica para o 
processo de cristalização, uma vez que alte- 
rações desse tipo aumentam a heterogenei- 
dade intrínseca da proteína em solução, tendo 
impacto direto no processo de cristalização. 


Sistema de expressão em bactérias 

0 sistema de expressão mais utilizado é 
o bacteriano, sendo a Escheríchia coli o orga- 
nismo de primeira escolha para expressão de 
proteína para estudos cristalográficos. A E. 
coli é responsável pela produção de mais de 
85% das proteínas depositadas no PDB (da- 
dos jan/2014), fato relacionado às caracte- 
rísticas do organismo, tais como: i) 

crescimento rápido: ü) baixa virulência: Ui) fa- 
cilidade de manipulação: iv) elevada produção 
de proteínas recombinantes. 

Atualmente, existe uma variedade sig- 
nificativa de cepas modificadas e otimizadas 
para expressão bem sucedida de proteínas 
recombinantes, com destaque para aquelas 
derivadas da cepa BL21, Rosetta™ 
(Novagen®), Origami™ (Novagen®), B834 
(Novagen®) e cepas que apresentam o plas- 
mídeo pLysS. 

A cepa Rosetta™ possibilita rendimentos elevados 
na produção de proteínas eucarióticas que apresentam 
códons raros. Essa característica está relacionada à 
presença do plasmídeo pRARE, que suplementa a bac- 
téria com RNAs transportadores (RNAt) para esses 
códons. 

A cepa Origami™ é indicada para aumentar o rendi- 
mento de proteína enovelada e funcional dependente 
da formação de ligações dissulfeto. Para tanto, possui 
mutantes das proteínas tiorredoxina redutase e gluta- 
tiona redutase que favorecem a formação dessas liga- 
ções no citoplasma. 

A cepa B834 e similares, auxotróficas para a pro- 
dução de metionina, são úteis para a produção de pro- 
teínas contendo o aminoácido modificado 
selenometionina, apresentando-se como alternativa 
atrativa e relevante para a determinação estrutural de 
proteínas como, por exemplo, na obtenção experimen- 
tal de fases utilizando o sinal anômalo do átomo Se. 

Por fim, as cepas que contém o plasmídeo pLysS 
são adequadas para a produção de proteínas tóxicas 
para a bactéria. A presença do plasmídeo determina 
que os níveis de expressão basais sejam reduzidos ao 
máximo, evitando-se assim danos celulares. 

Sistema de expressão em fungos 

As células fúngicas têm sido ampla- 
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mente empregadas como um bem sucedido 
sistema de expressão alternativo para proteí- 
nas de interesse cristalográfico. Entre as ce- 
pas mais populares destacam-se as leveduras 
Saccharomyces cerevisiae e Pichio pastoris, 
além dos fungos filamentosos Aspergillus 
niger e Trichoderma reesei. 

As principais características da utiliza- 
ção das células fúngicas para expressão con- 
sistem em: i) baixo custo para o cultivo; ii) 
elevada densidade celular, embora necessite 
de um tempo maior para obtenção da densi- 
dade adequada quando comparado às bacté- 
rias; iii) rendimento satisfatório, alcançando 
desde mg/L até g/L de cultivo; iv) possibilida- 
de de modificações pós-traducionais; v) intro- 
dução de marcadores para secreção da 
proteína no meio de cultura. 

Em geral, a cepa selecionada direciona a montagem 
da construção gênica. Sendo assim o vetor, o marcador 
molecular de secreção da proteína de interesse e o 
padrão de modificações pós-traducionais são 
específicos para a cepa utilizada. Além disso, os proce- 
dimentos e infraestrutura para o emprego desse siste- 
ma são mais sofisticados e demandam maior tempo, 
havendo necessidade de avaliar os transformantes pa- 
ra encontrar uma cepa com níveis de expressão eleva- 
dos. 

Sistema de expressão em células de 
mamíferos 

A produção de proteína recombinante 
em células de mamíferos é realizada com su- 
cesso em alguns casos, produzindo-se prote- 
ínas funcionais especialmente quando os 
alvos são de origem humana. As linhagens 
celulares comumente empregadas para ex- 
pressão de proteína são as células embriôni- 
cas de rim humano 293 (HEK 293, human 
embryonic kidney 293), células do ovário de 
hamsters (CHO, chinese hamster ovary ) e COS 
(célula tipo fibroblastos derivadas de rim de 
macaco). 

A principal vantagem desse sistema de 
expressão consiste na obtenção de proteínas 
complexas enoveladas corretamente, por 
exemplo, como no caso do segmento extra- 
celular da integrina aV|33, PDB ID 1JV2. Dentre 


as limitações, contudo, pode-se mencionar: i) 
custo elevado de produção, devido às parti- 
cularidades do cultivo desse tipo celular e o 
baixo rendimento obtido; ii) incapacidade de 
produção de proteínas tóxicas para o hospe- 
deiro; iii) dificuldade de adaptação a sistemas 
de triagem em larga escala (HT, high- 
throughput). 

Sistema de expressão em células de 

insetos 

Uma alternativa para produção de pro- 
teínas em células de mamíferos é a utilização 
de células de insetos, capazes de realizar 
modificações pós-traducionais similares 
àquelas promovidas por células de mamífe- 
ros. 

A principal linhagem celular utilizada é a 
Spodoptera frugiperda, sendo a expressão 
mediada pela infecção das células por um ba- 
culovírus que funciona como o vetor de ex- 
pressão. Dentre as vantagens desse sistema, 
em relação às células de mamíferos, citam- 
se: /) maior rendimento na produção de pro- 
teína recombinante; ii) pode ser adaptado pa- 
ra ensaios HT5; iii) possibilidade de trabalhar 
com linhagens adequadas à cultura em sus- 
pensão, permitindo o uso de biorreatores. 

13.4. Purificação 

A pureza da amostra é um dos principais 
fatores que influenciam o processo de crista- 
lização de macromoléculas. Nesse sentido, é 
fortemente recomendável que a proteína em 
estudo apresente o maior teor de pureza 
possível, sendo essa característica depen- 
dente de procedimentos de purificação ro- 
bustos e eficazes. Estes, por sua vez, 
dependem da estratégia de clonagem e siste- 
ma de expressão da proteína. 

A primeira etapa do processo de purifi- 
cação é a lise da célula de expressão. 0 pro- 
cesso de lise celular é bastante crítico pois, 
dependendo das condições no qual é realizado 
(tais como o método de lise, agente tampo- 
nante, pH, presença de cofatores, detergentes 
e temperatura) a proteína pode ser degrada- 
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da ou acumular-se na fração insolúvel. Assim, 
faz-se necessário avaliar criteriosamente as 
melhores condições de lise. 

Frequentemente, a etapa seguinte con- 
siste na precipitação fracionada das proteínas 
na mistura proveniente da lise celular. Esse 
procedimento é realizado através da adição 
de um sal, como o sulfato de amónio, ou de 
um solvente orgânico, como o etanol. Com os 
avanços das técnicas e métodos de expressão 
recombinante, vetores de expressão moder- 
nos permitem a inclusão de facilitadores da 
purificação. Nesse sistema, as proteínas são 
expressas com marcadores (togs) que possi- 
bilitam o emprego de métodos cromatográfi- 
cos (particularmente cromatografias de 
afinidade) para a captura seletiva da proteína 
de interesse. 

0 tipo de método cromatográfico a ser 
empregado depende do marcador vinculado 
ao vetor do sistema de expressão. Esses 
marcadores variam desde oliogopeptídeos, 
como uma cauda de hexahistidina (6xHis), até 
proteínas fusionadas de elevada massa mo- 
lecular, como a glutationa-S-transferase 
(GST). A cromatografia de afinidade por íon 
metálicos imobilizados é comumente utilizada 
para purificação de proteínas expressas com 
cauda de hexahistidina. 

Após a etapa de cromatografia de afini- 
dade deve-se decidir sobre a manutenção ou 
remoção do marcador. Não há evidências cla- 
ras sobre o impacto do marcador para o pro- 
cesso de cristalização, contudo, geralmente 
remove-se os marcadores de elevada massa 
molecular e avalia-se a influência dos de pe- 
quena massa molecular. 

A remoção do marcador ou clivagem é 
realizada pelo tratamento da amostra com 
enzimas proteolíticas, como trombina, fator 
Xa, enteroquinase, TEV protease e SUMO 
protease. A seleção da enzima é determinada 
pela estratégia de clonagem e vetor utilizado, 
uma vez que este contém sequências de re- 
conhecimento específicas para determinadas 
proteases. 

Nesse momento, uma segunda etapa de 
cromatografia de afinidade deve ser utilizada 
para separar a proteína de interesse dos 


marcadores e das proteínas não digeridas pe- 
la protease. Subsequentemente, uma etapa 
de cromatografia de exclusão por tamanho, 
também conhecida por gel filtração, é neces- 
sária para a purificação final da amostra. 

O método de gel filtração permite ainda 
a avaliação da homogeneidade da amostra em 
relação aos estados oligoméricos existentes 
em solução, o que pode ter implicações im- 
portante na compreensão da biologia estru- 
tural da proteína em estudo. Além disso, 
pode-se empregar essa técnica para realizar a 
troca da solução tamponante para uma mais 
adequada para os ensaios de cristalização. 

É importante mencionar que, além da 
cromatografia de afinidade e de gel filtração, 
outros métodos cromatográficos são fre- 
quentemente empregados para aumentar o 
teor de pureza da proteína em estudo, tais 
como a cromatografia de troca iônica e a 
cromatografia de interação hidrofóbica. Essas 
técnicas são aplicadas à amostra proteica nos 
casos em que a pureza obtida não tenha atin- 
gido os níveis necessários para os estudos 
cristalográficos. 

0 teor de pureza recomendado para 
cristalografia de proteínas é superior a 95%. 
Contudo, faz-se necessário esclarecer que a 
cristalização é, em si, um método de purifica- 
ção, de forma que não há regra absoluta so- 
bre a pureza da amostra. Comumente, 
avalia-se a pureza da proteína através de 
análise eletroforética desnaturante em gel de 
poliacrilamida (SDS-PAGE), cujo resultado 
ideal é a presença de uma banda única cor- 
respondente à proteína de interesse na forma 
pura (Figura 5-13). Métodos alternativos co- 
mo análises eletroforéticas não desnaturan- 
tes e ensaios de espalhamento dinâmico de 
luz (DL5, dynomic Light scaterring) são fre- 
quentemente empregados para assegurar o 
teor de pureza e homogeneidade da solução 
em estudo. 

13.5. Cristalização 

A obtenção de cristais adequados para 
os experimentos de difração de raios-X é fun- 
damental para a determinação da estrutura 
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Figura 5-13: Gel representativo de análise 
eletroforática desnaturante em SDS-PAGE 
para a enolase de PLasmodium foiciporum. 
Da esquerda para direita estão apresentados 
o marcador de massa molecular (MK), a 
fração insolúvel (Fl), a fração solúvel (FS), a 
passagem livre pela coluna de afinidade (PC), 
a eluição da coluna de afinidade (ECA), o 
tratamento com TEV protease (TT), a eluição 
da segunda coluna de afinidade (2ECA) e a 
eluição da gel filtração (GF). 

tridimensional de macromoléculas. 0 fenô- 
meno de cristalização ocorre quando a molé- 
cula em estudo precipita de modo lento e 
ordenado, formando cristais (Figura 6-13). 0 
processo ocorre em condições controladas, 
incluindo uma solução supersaturada da pro- 
teína de interesse, agentes precipitantes, 
condições controladas de temperatura, força 
iônica e em pequenos intervalos de variação 
de pH. 

Os cristais são caracterizados por ar- 
ranjos periódicos constituídos de unidades 
formadoras, que podem variar desde uma 
única molécula até grandes complexos ma- 
cromoleculares, tais como ribossomos ou 
ainda um capsídeo virai. 

As interações químicas entre as molé- 
culas que constituem as unidades formadoras 
de cristais proteicos são de baixa energia, tais 
como interações dipolo-dipolo, interações por 
ligação de hidrogênio, interações eletrostáti- 
cas e interações de van der Waals. Como re- 
sultado dessa rede de interações de baixa 
energia e alto conteúdo de solvente (~50%), 
cristais de proteínas mostram-se extrema- 



Figura 6-13: Exemplos de cristais de proteí- 
nas. 

mente frágeis quando comparados a cristais 
de sais inorgânicos. 

0 tamanho dos cristais de proteína é 
bastante variável, com dimensões entre 1 e 
500 |am. Adicionalmente, suas características 
macroscópicas são, na maioria das vezes, 
consequência da ordem (ou simetria do grupo 
espacial) no qual as moléculas se empacota- 
ram no retículo cristalino. 

As propriedades da proteína, como dis- 
tribuição de cargas na superfície, presença de 
regiões flexíveis e distribuição de conforma- 
ções têm impacto significativo no fenômeno 
de cristalização. Esse processo ocorre a partir 
de uma solução supersaturada de proteína, 
sendo a velocidade com que se atinge esse 
estado essencial para a formação de cristais, 
microcristais ou precipitado amorfo. 

A cristalização de macromoléculas bio- 
lógicas é uma técnica baseada na tentativa e 
erro por se tratar de um processo complexo 
e multiparamétrico. Parâmetros de caráter 
físico (como temperatura, pressão, superfície 
da molécula e tempo) e químico (como pH, 
agente precipitante, forca iônica, grau de su- 
persaturação, pureza da amostra, estado de 
agregação, ponto isoelétrico e presença/au- 
sência de estabilidade) interferem diretamen- 
te na formação de um cristal, de maneira que 
os diversos métodos utilizados exploram es- 
se espaço multiparamétrico com o objetivo de 
examinar os efeitos de combinações dessas 
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variáveis. Esses métodos são geralmente 
aplicáveis à maioria das proteínas, DNAs, 
RNAs e complexos multimoleculares. 

Dentre os parâmetros que podem apre- 
sentar impacto direto no processo de cristali- 
zação merece destaque a temperatura, capaz 
de alterar a curva de solubilidade da proteína 
e a cinética de equilíbrio e nucleação. As tem- 
peraturas amplamente empregadas para 
cristalização de proteínas são de 18 °C e 4 °C 
embora, quando possível, recomenda-se ava- 
liar a influência de temperaturas alternativas. 

No processo de cristalização, a vasta 
maioria das interações entre as moléculas de 
proteínas ocorrem na superfície das mesmas. 
Portanto, a presença ou ausência de algumas 
características podem ser fundamentais para 
obtenção de um cristal, destacando-se a 
presença de regiões desordenadas ou muito 
flexíveis e distribuição dos resíduos 
superficiais que contribuem para a carga total 
e entropia do sistema. A distribuição de 
algumas propriedades, calculadas a partir da 
sequência de aminoácidos do alvo proteico, 
como número de aminoácidos, ponto 
isoelétrico, tamanho da maior região 
desordenada, estabilidade, presença de 
domínios coited coit, entre outras, tem sido 
empregada na avaliação do potencial de 
cristalização ou cristalizabilidade. 
Ferramentas computacionais, como o 
XtalPred, avaliam essas propriedades e as 
comparam com aquelas disponíveis em banco 
de dados de proteínas cristalizadas para 
predizer a capacidade da proteína de interesse 
de cristalizar. 

Independentemente da origem e das 
particularidades da macromolécula em estu- 
do, alguns parâmetros importantes favore- 
cem a produção de cristais adequados aos 
estudos de difração de raios-X, com destaque 
para: /) a quantidade de proteína, necessária 
para garantir amostra suficiente durante os 
experimentos, e ü) a pureza da amostra. Em- 
bora existam casos de cristalização a partir 
de extratos brutos (como é o caso da lisozi- 
ma, da ferritina e da mioglobina), a probabili- 
dade de sucesso nos experimentos de 
cristalização aumenta significativamente com 


o emprego de proteína com elevado teor de 
pureza. 

A solução de proteína inicialmente em- 
pregada em ensaios de cristalização apresen- 
ta concentração abaixo do limite de 
solubilidade, ou seja, constitui uma solução 
insaturada. Logo para que a cristalização 
ocorra é necessário que essa solução se tor- 
ne supersaturada (Figura 7-13). Nesse senti- 
do, deve-se aumentar a concentração da 
solução de proteína através da remoção do 
solvente e da inclusão de agentes precipitan- 
tes, capazes de reduzir a solubilidade da pro- 
teína. 0 sistema então evoluirá para um 
estado mais concentrado, que ultrapassará o 
limite de solubilidade e constituirá uma solu- 
ção supersaturada. 

Solução Saturada 
Metaestável 



Figura 7-13: Diagrama de fase mediado por 
agente precipitante e concentração proteica 
para a cristalização. 

A análise do diagrama de fase representado na Fi- 
gura 7-13 revela três regiões distintas: 

i) região azul, caracterizada pela presença de solu- 
ção insaturada (proteína solúvel). Nessa região não 
há formação e crescimento de cristais: 

ii) região verde, caracterizada pela solução satura- 
da metaestável, subdivida nas sub-regiões iia e iib\ 

iia) abaixo da linha central verde não haverá forma- 
ção e crescimento de cristais devido à ausência de 
núcleos cristalinos: 

iib) acima da linha verde a formação de cristais tor- 
na-se favorável, pois ocorre o fenômeno de nuclea- 
ção de maneira espontânea. Nessa região a barreira 
energética á vencida, permitindo que o sistema reti- 
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re proteína da solução e forme os núcleos cristali- 
nos. Este processo é acompanhado pela diminuição 
da concentração de proteína em solução, e o siste- 
ma evoluirá para o equilíbrio que favorece o cresci- 
mento dos cristais a partir dos núcleos formados; 

Ui) região vermelha, caracterizada pela presença 
de solução hipersaturada. Nessa região ocorre pre- 
cipitação espontânea da proteína de forma desor- 
denada. 

As condições favoráveis para o processo de nucle- 
ação e crescimento de cristais devem ser avaliadas 
cuidadosamente. Nesse contexto, podem-se identificar 
condições favoráveis para o crescimento do cristal que, 
contudo, não são favoráveis para a nucleação. Da mes- 
ma forma, pode-se obter condições favoráveis para a 
nucleação intensa da proteína que, por sua vez, impe- 
dem o crescimento dos cristais. Existem diversas téc- 
nicas para contornar os problemas específicos de cada 
caso, buscando-se a obtenção de cristais adequados 
para os estudos cristalográficos. 

Processo físico-químico 

A cristalização pode ser descrita como um proces- 
so físico-químico envolvendo os seguintes componen- 
tes energéticos: 

AG crist = AH crist - T ( AS proteína + AS solvente) 

0 termo entálpico (AH crist ) apresenta contribuições 
modestas ao processo de cristalização, uma vez que é 
proveniente de um pequeno número de interações mo- 
leculares de baixa intensidade, estabelecidas entre as 
macromoléculas para a formação do cristal. 

Paralelamente, esse processo determina a perda de 
liberdade de translação e rotação das macromoléculas 
quando comparadas às suas formas livres em solução. 
Perde-se ainda a flexibilidade de algumas alças devido 
ao empacotamento estabelecido sendo, portanto, um 
processo entropicamente desfavorável (AS proteina > 0). 

Por outro lado, a cristalização da macromolécula li- 
bera uma quantidade significativa de moléculas de 
águas previamente ordenadas ao redor de resíduos hi- 
drofóbicos e polares, o que promove um ganho entró- 
pico considerável (AS solvente < 0) que torna o processo de 
cristalização espontâneo (AG crist < 0). 

A compreensão dos componentes energéticos é de 
fundamental importância para o favorecimento do 


processo de cristalização. Atualmente, altera-se a ca- 
pacidade de cristalização de proteínas através de mu- 
tações específicas de resíduos localizados na superfície 
da macromolécula de forma a interferir nestes com- 
ponentes, favorecendo a cristalização. Exemplos 
relevantes dessa estratégia incluem modificações de 
resíduos de aminoácidos com termo entrópico elevado, 
especialmente, resíduos de lisinas e ácidos glutâmicos. 
Estes resíduos possuem cadeias laterais longas e, por 
sua disposição preferencial pela superfície proteica, 
normalmente caracterizam-se por elevada entropia 
conformacional. Desta maneira, a troca por resíduos 
com menor entropia associada, como exemplo 
resíduos de alanina, minimizam a perda de entropia 
durante o empacotamento, favorecendo ainda mais o 
processo de cristalização (AG crist « 0). 

0 planejamento de mutações com objetivo de au- 
mentar o potencial de cristalização de um alvo macro- 
molecular é auxiliado pela disponibilidade de 
servidores gratuitos na internet. Um exemplo impor- 
tante é o SERp da Universidade da Califórnia (UCLA). 
Esse servidor emprega o método de redução da entro- 
pia de superfície (SER, s urfoce entropy reduction ) que, 
em linhas gerais, realiza a previsão de estrutura 2 ária a 
partir da sequência de aminoácidos e, com base nesse 
resultado, estabelece o perfil entrópico da proteína, 
sugerindo resíduos cuja mutação poderia beneficiar o 
processo de cristalização. 

Métodos de cristalização 

Uma vez obtida a proteína de interesse 
com teor de pureza adequado, tem-se diver- 
sas alternativas disponíveis para a cristaliza- 
ção. Em comum, estes métodos envolvem a 
mistura da solução pura de proteína com so- 
luções de cristalização, contendo agentes 
precipitantes variados. 

Em seguida, mantém-se a mistura em 
um sistema fechado e isolado para estabele- 
cimento do equilíbrio e consequente cristali- 
zação. A seleção da estratégia de 
cristalização depende de fatores como o ob- 
jetivo de aplicação (por exemplo, a triagem 
inicial de condições ou a otimização de cris- 
tais) e características do ensaio (como a faci- 
lidade de resgate dos cristais da gota de 
cristalização, o número de experimentos e a 
possibilidade de automação, dentre outros). 
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O método de difusão de vapor baseia-se 
no equilíbrio entre duas soluções através da 
fase de vapor em sistema fechado. A solução 
menos concentrada perde seu solvente volátil 
até que os potenciais químicos das duas solu- 
ções se igualem. Para se controlar a concen- 
tração final da solução de proteína, realiza-se 
o experimento de difusão de vapor com um 
volume pequeno de proteína contra um volu- 
me grande de solução precipitante. Assim, 
uma gota de solução da proteína a ser crista- 
lizada é adicionada à solução tampão conten- 
do agentes precipitantes e aditivos (por 
exemplo, em uma diluição 1:1). Em seguida, 
essa gota é equilibrada contra um reservató- 
rio contendo uma solução de agentes precipi- 
tantes a uma concentração maior que a da 
gota com proteína. 0 método de difusão de 
vapor pode ser conduzido de duas maneiras 
principais: a gota suspensa ( honging drop) e a 
gota assentada (s itting drop) (Figura 8-13). 

No método gota suspensa, a gota con- 
tendo a proteína de interesse é colocada so- 
bre uma lamínula de vidro siliconizada e, 
posteriormente, vedada com o auxílio de gra- 
xa especial na parte superior do poço, como 
aquele em uma placa de 24 poços, de forma 
que a gota fique interna ao reservatório (Fi- 
gura 8-13). 

Entre as vantagens dessa metodologia 
destaca-se a facilidade e versatilidade de 
aplicação. Entre as limitações encontra-se o 
custo elevado das lamínulas, a impossibilida- 
de de automação e a dificuldade de monta- 
gem das gotas quando um dos agentes 
precipitantes promove perda da tensão su- 
perficial. 

No método gota assentada, a solução 
contendo a proteína é colocada sobre um su- 
porte fixado no centro do poço, o qual é pos- 
teriormente vedado com o auxílio de fita 
adesiva apropriada (Figura 8-13). 

Entre as principais vantagens desse 
método destaca-se a capacidade para desen- 
volvimento de experimentos automatizados e 
miniaturizados, com a utilização de placas de 
96, 384 e 1536 poços, empregando com go- 
tas de até 50 nl_. Entre suas limitações tem- 
se o tempo de espera entre a montagem de 


Difusão do 
Solvente 


Reservatório 


Figura 8-13: Métodos de cristalização que 
utilizam a técnica de difusão de vapor. 

uma gota e a etapa de vedação da placa, que 
deve ser suficientemente rápido para impedir 
que a gota evapore totalmente, e a possibili- 
dade de alguns cristais ficarem aderidos à 
superfície da placa. 

A escolha do método está associada ao 
propósito do ensaio. Assim, experimentos de 
triagem de condições de cristalização são ti- 
picamente conduzidos com o emprego do 
método da gota assentada, enquanto para 
etapas de reprodução de cristais e otimização 
de condições utiliza-se o método da gota sus- 
pensa. 

Adaptações e estratégias diferenciadas 
são frequentemente empregadas nesses mé- 
todos, buscando modificar os estados iniciais 
e finais do sistema e a cinética de equilíbrio. 
Por exemplo, podem ser empregadas pro- 
porções distintas de solução de cristalização 
e solução proteica, como 1:2, 2:1 e 1:3, além 
da utilização de óleos permeáveis e imper- 
meáveis sobre a solução do reservatório. 

Métodos alternativos de cristalização de proteínas 
incluem o batch, a microdiálise e a interfase livre de di- 
fusão (Figura 9-13). 

0 método botch emprega concentrações de solu- 
ção de proteína e agentes precipitantes adequadas pa- 
ra gerar uma nova solução proteica supersaturada. A 
solução resultante é então coberta por óleo imper- 



Gota Assentada 



Membrana 
5ermpermeável 

Reservatório 

Microdiálise Batch Interfase Uvre de Difusão 

Figura 9-13: Exemplos de métodos de 

cristalização alternativos empregados em 
cristalografia de proteína. 
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meável, que dificulta a difusão de vapor e, dessa 
forma, isola o sistema para que se atinja o equilíbrio. 
Consequentemente, á favorecida a cristalização da 
macromolácula (Figura 9-13). Variantes dessa técnica 
utilizam óleos permeáveis, como silicones, que deter- 
minam novas condições de equilíbrio para a formação 
de cristais de boa qualidade. 

A microdiálise permite a troca do solvente e do 
agente precipitante presente na solução proteica com a 
solução do reservatório através de uma membrana 
semipermeável, favorecendo a redução ou aumento 
das concentrações e, consequentemente, a cristaliza- 
ção. 

Na interfase livre de difusão a solução de proteína e 
a solução de cristalização são acondicionadas em capi- 
lares que permitem o contato das soluções em apenas 
uma pequena superfície (interface de contato), de for- 
ma que o equilíbrio é atingido após a difusão lenta de 
uma solução na outra. Nesse experimento, avalia-se o 
perfil de solubilidade da proteína em gradiente de con- 
centração para identificação da condição mais favorá- 
vel para a cristalização. 

A automatização das etapas de monta- 
gem e observação dos cristais tem favorecido 
significativamente os experimentos de crista- 
lização, propiciando: 

i) ganho de agilidade e precisão na 
montagem dos cristais, particularmente 
importantes em trabalhos com proteí- 
nas sensíveis e instáveis e na reproduti- 
bilidade dos cristais: 

ii) miniaturização; 

Ui) redução no custo e consequente 
possibilidade de aumento no número de 
ensaios realizados para o mesmo alvo; 
iv) viabilização de estudos de cristaliza- 
ção para proteínas cuja expressão seja 
bastante reduzida ao permitir a manipu- 
lação dos pequenos volumes envolvi- 
dos. 

Reagentes para cristalização 

As soluções de cristalização contêm re- 
agentes que podem ser agrupados em clas- 
ses distintas: agentes tamponantes 

(responsáveis por manter o pH adequado da 
solução de cristalização), aditivos (facilitam 
e/ou otimizam o processo de cristalização) e 


precipitantes (reduzem a solubilidade da pro- 
teína). 

0 agente tamponante é fundamental no 
processo de cristalização por manter cons- 
tante o pH da solução e, consequentemente, 
estabilizar a distribuição de cargas dos resí- 
duos na superfície da proteína. Além disso, o 
agente tamponante pode alterar a solubilida- 
de da proteína favorecendo o processo de 
cristalização quanto empregados em concen- 
tração adequada. 

Os aditivos são compostos capazes de 
permitir, facilitar ou aperfeiçoar o processo 
de cristalização como, por exemplo, cloreto 
de magnésio, L-prolina, ATP e NAD. Esses 
compostos apresentam propriedades distin- 
tas, que favorecem o processo de cristaliza- 
ção. Por exemplo, detergentes estabilizam a 
estrutura e impedem a agregação de proteí- 
na, enquanto ligantes e íons metálicos podem 
promover contatos intermoleculares adicio- 
nais ou ainda alterar a polaridade do meio. Di- 
ante da impossibilidade de prever o efeito de 
determinado aditivo sobre a cristalização, de- 
ve-se avaliar a influência desses compostos 
através de triagem sistemática. Para tanto, há 
disponíveis kits comerciais já preparados para 
aplicação. 

Os agentes precipitantes podem ser di- 
vididos em duas classes: sais inorgânicos e 
compostos orgânicos. A utilização de sais co- 
mo agentes precipitantes está relacionada a 
dois fenômenos conhecidos como s alting-in e 
s aiting-out. 0 primeiro favorece o aumento da 
solubilidade da proteína através do acréscimo 
de pequenas quantidades de sal, enquanto o 
segundo favorece a diminuição da solubilidade 
da proteína por acréscimos de quantidades 
elevadas de sal. Sais como o sulfato de amó- 
nio, cloreto de sódio e citrato de sódio estão 
entre os amplamente empregados como 
agentes precipitantes. 

Na classe dos precipitantes orgânicos 
destacam-se os polímeros de poliálcoois, com 
ênfase para o polietilenoglicol (PEG) e polieti- 
lenoglicol monoetil éter (PEG-MME), que 
apresentam comprimentos de cadeias variá- 
veis, variando de 2ÜÜ a 2Ü.ÜÜÜ Da de massa 
molecular média. Os representantes mais 
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populares dessa classe são os PEGs 3.350, 
4.000 e 8.000. O mecanismo de redução de 
solubilidade por estes compostos é atribuído 
à competição dos substituintes hidroxilas com 
os resíduos da proteína pelas moléculas de 
água disponíveis. 

Adicionalmente, alguns álcoois de pe- 
quena massa molecular têm sido emprega- 
dos com sucesso como agentes precipitantes. 
Estes compostos são capazes de reduzir a 
concentração de proteína pela alteração da 
polaridade da solução de cristalização. 
Exemplos de destaque dessa categoria inclu- 
em o isopropanol, 2-metil-2,4-pentanodiol 
(MPD), 1,6-hexanodiol e glicerol. 

Estratégias para cristalização de 
proteínas 

Atualmente, as etapas iniciais de tria- 
gem para identificação de condições de cris- 
talização promissoras empregam soluções de 
cristalização isoladas ou reunidas de acordo 
com as características físico-químicas. Essas 
soluções são produzidas e comercializadas 
por empresas especializadas, tais como 
Hampton Research, Molecular Dimensions, 
Qiagen e Jena Biosciences. 

Dentre os formatos e estratégias dis- 
poníveis destaca-se a triagem em rede ( grid 
screen), capaz de fornecer informações im- 
portantes de modo rápido, sendo por isso 
amplamente aplicada em triagens iniciais. 
Nesse experimento, avaliam-se sistematica- 
mente dois fatores em paralelo como, por 
exemplo, variações simultâneas de pH/PEG, 
pH/cloreto de sódio e pH/sulfato de amónio, 
dentre outras combinações. 

Uma estratégia alternativa para identifi- 
cação de condições promissoras para a cris- 
talização consiste na utilização de soluções 
fatoriais. Nessa abordagem, busca-se balan- 
cear a ocorrência de algumas características 
principais e suas combinações durante o pro- 
cesso de amostragem através do planeja- 
mento fatorial. A utilização de fatoriais 
incompletos reduz a quantidade de parâme- 
tros avaliados e, com isso, o número de ex- 
perimentos realizados. Essa alternativa 


encontra aplicação quando a disponibilidade 
de amostra restringe o número de ensaios 
que podem ser conduzidos. 

Devido às características do processo 
automatizado de montagem dos experimen- 
tos de cristalização, a estratégia mais empre- 
gada em triagens iniciais é a matriz esparsa, 
que apresenta aspectos semelhantes ao fa- 
torial incompleto. Para a elaboração dessa 
estratégia, um estudo estatístico que incluiu 
mais de 5ÜÜ proteínas, 480 condições de 
cristalização e mais de 5ÜÜ.ÜÜÜ experimen- 
tos foi conduzido pelo centro de genômica 
estrutural Joint Center for Structurai 
Genomics (JC5G - San Diego, Califórnia, EUA). 
Esse estudo resultou na seleção de 384 con- 
dições com maior probabilidade de sucesso 
para a cristalização de macromoléculas. 

Para a realização dos ensaios de cristalização há 
necessidade de solução de proteína com a máxima pu- 
reza disponível e concentração adequada. A concentra- 
ção média utilizada para determinação das estruturas 
de proteínas depositadas no PDB á de 14 mg/mL. No 
entanto, há exemplos de estruturas cristalizadas entre 
2 e 100 mg/mL. Como regra geral, emprega-se a con- 
centração de 10 mg/mL em ensaios iniciais de cristali- 
zação. 

Após a montagem dos experimentos, as placas de 
cristalização devem ser acondicionadas em ambiente 
adequado, com baixa vibração e temperatura controla- 
da, para que o sistema evolua em direção à condição 
de equilíbrio. 

Tradicionalmente, a observação das gotas á realiza- 
da através de análise visual com o auxílio de uma lupa. 
Contudo, equipamentos modernos e programas de re- 
conhecimento de padrões têm sido desenvolvidos e 
aplicados na inspeção e aquisição de imagens, onde fo- 
tos de cada uma das gotas do experimento de cristali- 
zação são obtidas e analisadas automaticamente. 
Como regra geral, observa-se o experimento imediata- 
mente após sua montagem (t = □), seguida de mais 10 
observações ao longo do experimento, com intervalos 
menores no início e mais prolongados ao final. 

As observações devem ser registradas adequada- 
mente para avaliação e identificação das condições 
mais promissoras para cristalização. Os kits comerciais 
fornecem tabelas próprias com sistemas de pontuação 
para facilitar a interpretação e análise dos resultados. 
Adicionalmente, programas têm sido utilizados como 
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ferramentas eficientes para avaliação dos dados e 
proposição de novos experimentos. 

0 objetivo dos experimentos de cristali- 
zação é a obtenção de cristais adequados pa- 
ra os ensaios de difração de raios-X. No 
entanto, os resultados observados podem ser 
bastante variados, incluindo-se: 

i) cristais bem formados, com arestas e 
faces definidas (Figura 10A-13); 

ii ) cristais com crescimento em duas di- 
mensões, denominados de placas (Figu- 
ra 10B-13); 

Ui) cristais com crescimento em apenas 
uma dimensão, denominados de agulhas 
(Figura 10C-13); 

iv) precipitados leves e intensos (Figuras 
10D-13 e 10E-13, respectivamente): 

v) separações de fase (Figura 10F-13); 

vi) aglomerados de agulhas (Figura 10G- 
13): 

vii ) microcristais (Figura 10H-13). 

Com exceção de alguns casos nos quais os cristais 
obtidos na etapa de triagem podem ser considerados 
adequados para os experimentos de difração de raios- 
X, a obtenção de uma condição promissora é seguida 
por etapas de otimização. Embora o número de parâ- 
metros a serem investigados nessa etapa seja elevado, 
costuma-se explorar a concentração dos reagentes ini- 
ciais (incluindo a concentração de proteína), a propor- 
ção entre a solução de proteína e a solução de 


cristalização, o agente tamponante e o pH da solução, a 
presença de aditivos e detergentes e a cinética de equi- 
líbrio, entre outros. Essa investigação se estende até a 
identificação de condições otimizadas de cristalização, 
capazes de fornecer cristais apropriados e de boa qua- 
lidade para os experimentos de difração de raios-X. 

13.6. Coleta de dados 

Uma vez que cristais adequados são 
produzidos, eles podem ser testados quanto à 
sua capacidade de difração de raios-X e, em 
seguida, serem empregados na coleta de da- 
dos cristalográficos. 

0 uso da difração de raios-X na obten- 
ção de informação sobre a estrutura de mo- 
léculas baseia-se na propriedade do padrão 
de difração da distribuição eletrônica dos 
átomos em um objeto poder ser aproximado 
pela transformada de Fourier do mesmo. Por 
outro lado, a transformada inversa de Fourier 
do padrão de difração é a distribuição eletrô- 
nica dos átomos do cristal de proteína. 

0 fenômeno de difração depende da in- 
teração entre a radiação eletromagnética 
com a matéria do objeto e da dispersão dessa 
radiação ao incidir sobre este. Embora exis- 
tam outros métodos de dispersão disponíveis, 
como a dispersão de nêutrons dos núcleos, 
eles constituem atualmente uma fração mui- 
to pequena dos experimentos de difração. 
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Figura 10-13: Resultados possíveis em experimentos de cristalização. A) cristal bem formado, B) 
placas, C) agulhas, D) precipitado leve, E) precipitado intenso, F) separação de fase, G) 
aglomerados de agulhas e Fl) microcristais. 
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Em relação às proteínas ou outras mo- 
léculas orgânicas, os raios-X são a radiação 
eletromagnética de escolha para os estudos 
estruturais. 0 comprimento de onda típico 
dos raios-X é de 0,15 nm (1,5 Â), ou seja, da 
mesma ordem do comprimento de uma liga- 
ção covalente entre átomos. Consequente- 
mente, torna-se possível detectar tais 
distâncias, utilizando-se a difração de raios-X. 

Em princípio, um único objeto já é capaz 
de difratar raios-X. Assim, uma única molé- 
cula seria suficiente para a realização de ex- 
perimentos de difração de raios-X. No 
entanto, a utilização de uma única molécula 
como fonte espalhadora resulta em feixes de 
radiação dispersos de baixíssima intensidade, 
cuja detecção é praticamente impossível pe- 
los métodos disponíveis. 

Para solucionar essa limitação, utiliza-se 
uma quantidade significativa de moléculas 
(~10 15 moléculas) organizadas num padrão 
regular tridimensional. Este grande número 
de moléculas atua como amplificador do si- 
nal, capaz de gerar feixes de radiação mensu- 
ráveis de alta intensidade. Por conseguinte, 
estruturas cristalinas são as mais adequadas 
para obtenção de dados de alta resolução em 
experimentos de difração de raios-X. 

Padrão de difração 

0 padrão de difração de proteínas é tri- 
dimensional e reflete tanto a simetria dos ar- 
ranjos cristalinos quanto a organização da 
proteína na célula unitária, isto é, a unidade de 
repetição que constitui o cristal). Esses ar- 
ranjos são definidos em termos de grupos 
espaciais e de unidades assimétricas. 

A unidade assimétrica é a menor unida- 
de a partir da qual uma célula unitária pode 
ser construída. Além disso, a unidade assimé- 
trica representa o número mínimo de estru- 
turas independentemente determinadas em 
um cristal. Por exemplo, uma unidade assi- 
métrica pode conter desde apenas um repre- 
sentante da proteína em estudo até 12 ou 
mais representantes. Frequentemente, esses 
arranjos tornam possível a determinação do 
estado oligomérico da proteína, especialmen- 


te em casos nos quais as subunidades não 
são idênticas (Figura 11-13). 

Para a determinação das coordenadas 
espaciais dos átomos da proteína, responsá- 
veis pela difração do feixe de raios-X, faz-se 
necessário identificar cada uma das reflexões 
no padrão de difração (Figura 12-13). Devido 
ao caráter tridimensional do padrão de difra- 
ção, as distâncias entre as reflexões medidas, 
em um detector, localizam-se próximas ou 
distantes do centro do padrão. Portanto, a 
partir de um ponto de origem (o centro da 
imagem) valores crescentes são atribuídos 
para todas as reflexões no padrão de difra- 
ção. Esses valores, denominados índices de 
Miller, indicam reflexões próximas do centro 
da imagem (ou seja, valores menores de índi- 
ces de Miller) e reflexões localizadas nas re- 
giões periféricas do padrão de difração (ou 
seja, valores maiores índices de Miller). 

Os ângulos que os feixes difratados fa- 
zem com relação ao feixe incidente no cristal 
determinam o nível de informação obtido em 
um experimento de difração de raios-X. As- 
sim, quanto maior o ângulo do feixe difratado 



Figura 11-13: Exemplo de empacotamento 
cristalino, célula unitária (paralelogramo) e 
unidade assimétrica (destacada nas cores 
ciano, magenta e verde). Empacotamento de 
várias moléculas da proteína 6-piruvoil- 
tetrahidrobiopterina-sintase humana (PTP5). 
Dados processados e refinados por JRCM e 
gentilmente cedidos pelo Structural Genomics 
Consortium, Oxford, UK. 
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maiores serão os valores dos índices de Miller 
para as reflexões observadas, e por conse- 
guinte, maior será a resolução dos dados co- 
letados (Figura 12A-13). 

Informações moleculares a alta resolu- 
ção produzem mapas de densidade eletrônica 
bem definidos, que auxiliam substancialmente 
a determinação precisa da posição dos áto- 
mos que constituem o cristal (Figura 12B-13). 
Portanto, os detalhes e qualidade do modelo 
3D da macromolácula são diretamente pro- 
porcionais à resolução dos dados coletados 
nos estudos cristalográficos. 

Fundamentalmente, as características 
do padrão de difração, isto é, as intensidades 
das reflexões e a resolução do conjunto de 
dados, determinam a qualidade do mapa de 
densidade eletrônica. Nesse sentido, parâme- 
tros quantitativos são empregados para ava- 
liação da qualidade do conjunto de dados, 
dentre os quais destacam-se a intensidade 
das reflexões (I), os danos causados pela ra- 
diação (Rdano), a sobreposição das reflexões 
(0), o fator R (Rmerge) e a completeza (C) 
(Tabela 2-13). 

Intensidade [I] 

As intensidades das reflexões têm impacto direto 
na qualidade dos dados cristalográficos. A intensidade 
das reflexões depende de diversos fatores, tais como o 
tamanho e a qualidade do cristal, o tempo de exposi- 
ção ao feixe de raios-X e a intensidade do feixe de rai- 
os-X. 

A relação entre a intensidade da reflexão e o plano 
de fundo ( bockground) é dada pela razão sinal-ruído 
I/o(I). Uma vez que as proteínas estão sujeitas a altera- 
ções causadas pela interação com raios-X, causadas 
por radicais livres, durante a coleta de dados cristalo- 
gráficos deve-se ponderar a relação entre o tempo de 
exposição do cristal e a intensidade do feixe de modo 
que se obtenham intensidades mensuráveis e de boa 
qualidade, sem afetar a estrutura da proteína em estu- 
do. 

Tais limites de resolução dos dados de difração são 
frequentemente definidos pelo critério I/g(I). Em geral, 
utiliza-se dados que apresentam valores de I/o(I) mai- 
ores que 2, isto á, a intensidade medida para as refle- 
xões é duas vezes maior que o ruído observado. 


A B 



Figura 12-13: (A) Padrão representativo obtido 
em um experimento de difração de raios-X de 
uma estrutura de altíssima resolução (1,1 Â). 
Os anéis vermelhos indicam as camadas de 
resolução para as reflexões. As reflexões se 
tornam menos intensas quanto maior a 
resolução. (B) Resolução versus densidade 
eletrônica. Mapa de densidade eletrônica para 
o mesmo resíduo de triptofano calculado em 
4 diferentes resoluções (PDB ID 3T7L). Dados 
de difração gentilmente cedidos pelo 
StructuraL GenomicsConsortium, Oxford, UK. 

Rdano [R] 

0 valor de Rdano indica a extensão do impacto das 
colisões do tipo inelásticas e elásticas provenientes do 
feixe de fótons incidentes na amostra cristalina. Devido 
à alta intensidade desses fótons a amostra sofrerá 
processos irreversíveis e será "danificada. 

Os danos causados pela radiação constituem um 
importante fator para a qualidade dos dados cristalo- 
gráficos. Com o objetivo de amenizar tais danos, geral- 
mente á empregada uma estratégia de coleta de dados 
a temperaturas "criogênicas" (100 K), obtidas com o 
auxílio de nitrogênio líquido. 

A aplicação dessa estratégia para coleta de dados 
cristalográficos exige um pré-tratamento do cristal. 
Cristais de proteína contém uma quantidade significati- 
va de água, logo seu resfriamento acarreta na forma- 
ção de gelo que, por sua vez, é extremamente 
prejudicial para o cristal e, consequentemente, para o 
experimento de difração. 

Por este motivo os cristais são usualmente pré- 
-tratados com agentes crioprotetores, tais como PEG 
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Tabela 2-13: Dados cristalográficos represen- 
tativos de uma coleta de dados de difração de 
raios-X (PDB ID 3ZRS). 


Dados Cristalográficos 

Grupo espacial 

P 4 2., 2 

Dimensões da célula (Á) 

a = b = 106,24 c = 89,80 

a = (3 = y = 90 Q 

Resolução (Â) 

106,24-3,05 

(3,21-3,05)* 

Rmerge 

0,262 (0,945)* 

<I)/<CT(I)) 

5,5 (2,0)* 

Completeza (%) 

99,9(99,8)* 

Multiplicidade 6,8 (6,9)* 

*0s números entre parênteses referem-se à mais 


alta camada de resolução. 

ou glicerol, seguidos de resfriamento rápido (flash 
cooling). Este procedimento evita a formação de cris- 
tais de gelo, mantendo assim a integridade e qualidade 
dos cristais de proteína. 

Sobreposição [0] 

Além da intensidade da reflexão, a capacidade para 
discernir reflexões individuais também é essencial. A 
separação das reflexões em um padrão de difração 
depende, principalmente, do tamanho da célula unitá- 
ria. Nesse sentido, quanto maior as dimensões da célu- 
la unitária (parâmetros a, b e c da Tabela 2-13) mais 
próximas estarão as reflexões no padrão de difração e 
consequentemente, maior será a probabilidade de 
ocorrer sobreposição. 

Esta sobreposição de reflexões acarreta em uma 
maior imprecisão na determinação da intensidade de 
cada reflexão. Além disso, outros fatores como a de- 
sordem interna no cristal (mosaicidade), proveniente 
do empacotamento cristalino ou de danos mecânicos 
(como aqueles causados durante o resfriamento rápi- 
do) podem ocasionar alargamento significativo das re- 
flexões no padrão de difração produzindo 
sobreposição. 


Rmerge [Rm] 

Uma vez que o padrão de difração contém os ele- 
mentos de simetria do cristal, a maioria das reflexões é 
observada mais de uma vez. Dessa maneira, a repro- 
dutibilidade dessas medidas é uma característica utili- 
zada como parâmetro de precisão. 

Estatisticamente, quanto maior a frequência com 
que uma reflexão é medida, e quanto mais similares 
elas são entre si, melhor será o conjunto de dados 
cristalográfico. A redundância desses dados é indicada 
em termos de uma média geral, enquanto a reproduti- 
bilidade das medidas é avaliada por um fator residual 
denominado Rmerge (ou Rsym, quando se leva em 
conta a simetria das reflexões). 

0 valor de Rmerge é obtido através do cálculo da 
média da intensidade de um grupo de reflexões dividido 
pela média do desvio padrão para esse mesmo grupo 
de reflexões: 

■ mer.qe V V / 

Lh lii l i 

É importante mencionar que o fator Rmerge é de- 
pendente da resolução, logo deve ser informado para 
todo o conjunto assim como para as camadas de mais 
altas de resolução (Tabela 2-13). Um conjunto de dados 
de boa qualidade caracteriza-se por um valor de 
Rmerge global menor que 15% e, na camada de maior 
resolução, o valor de Rmerge dever ser menor que 
100 %. 

Completeza [C] 

A completeza dos dados é um fator extremamente 
importante na determinação da qualidade do conjunto. 
A completeza é determinada pela razão entre o núme- 
ro esperado de reflexões para o grupo espacial e o ta- 
manho da célula unitária. Uma vez que a capacidade 
para medir reflexões diminui em função da resolução, a 
completeza dos dados será menor nas camadas de 
maior resolução. Portanto, esse parâmetro deve ser 
informado tanto para todo o conjunto de dados quanto 
para a camada mais alta de resolução (Tabela 2-13). 

Um conjunto de dados cristalográficos 
ideal é formado por camadas de baixa e alta 
resolução determinadas com relação sinal- 
-ruído (l/a(I)) global maior que 10 e maior que 
2 para a camada de maior resolução, refle- 
xões bem separadas, valor de Rmerge global 
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menor que 100% e completeza maior que 
95% (em geral, é aceitável que a completeza 
seja baixa somente nas camadas de maior 
resolução). 

A relação entre esses parâmetros de- 
termina a qualidade final do mapa de densi- 
dade eletrônica. Portanto, quanto maior a 
qualidade dos dados cristalográficos, maior 
será a probabilidade de se obter um mapa de 
densidade eletrônica bem definido e interpre- 
tável. No entanto, é importante mencionar 
que a análise isolada desses parâmetros não 
deve ser utilizada como um substituto para o 
julgamento da veracidade do modelo estru- 
tural. 

Os valores mencionados para os princi- 
pais parâmetros cristalográficos devem ser 
utilizados como indicativos da qualidade do 
conjunto de dados coletados. A vasta maioria 
dos modelos estruturais depositados no PDB 
foi construído a partir de conjuntos de dados 
de excelente qualidade. Contudo, há também 
exemplos de modelos incorretos, provenien- 
tes de conjuntos de dados de qualidade sim- 
plesmente aceitável. Em geral, esses 
modelos são resultado da interpretação ina- 
dequada dos mapas de densidade eletrônica, 
construídos a partir de conjunto de dados de 
menor resolução. Portanto, quanto maior a 
resolução dos dados, menor a probabilidade 
de erros no modelo estrutural da proteína em 
estudo. 

Faseamento 

A radiação eletromagnética pode ser 
descrita pela equação de ondas, que é defini- 
da em termos de amplitude, comprimento de 
onda e fase. Em um experimento de difração 
de raios-X, os dois primeiros parâmetros são 
medidos diretamente, ou seja, a amplitude da 
onda é proporcional à intensidade do feixe di- 
fratado (a amplitude é igual à raiz quadrada 
da intensidade medida para uma reflexão) e o 
comprimento de onda (X) é definido pelo 
comprimento de onda dos raios-X utilizados. 
As fontes caseiras com ânodo rotatório de Cu 
apresentam X = 1,54178 Â, enquanto fontes de 
luz síncrotrons apresentam X = 0,8-2, 5 Â. 


A determinação da fase nos estudos 
cristalográficos é um processo complexo, co- 
nhecido como “problema das fases”. É uma 
etapa fundamental e de grande impacto para 
a obtenção de mapas de densidade eletrônica 
bem definidos e, por conseguinte, para a 
construção de modelos estruturais de quali- 
dade. De fato, um mapa de densidade eletrô- 
nica calculado a partir das amplitudes de uma 
estrutura correta, mas com fases incorretas, 
seria impossível de se interpretar. Por outro 
lado, um mapa de densidade eletrônica calcu- 
lado a partir de amplitudes de estruturas ale- 
atórias, mas com fases corretas, seria 
interpretável. 

A fase corresponde ao tempo relativo à 
chegada da crista de uma onda específica a 
um ponto de referência. Ondas de mesmo 
comprimento e fases idênticas terão seus pi- 
cos e vales em comum, somando-se em har- 
monia. Ondas com fases opostas tendem a 
anular umas as outras, total ou parcialmente, 
dependendo de suas amplitudes. 

Assim, ao somarmos todas as ondas 
difratadas (a síntese de Fourier) para se re- 
solver uma estrutura de proteína, torna-se 
necessário determinar as amplitudes e fases 
para cada uma das ondas espalhadas, ou seja, 
para cada reflexão. 

Experimentalmente, a amplitude da on- 
da difrata é facilmente medida utilizando-se 
detectores modernos, tais como placas de 
imagem, couple charged devive (CCD) e pixel 
apparatus for the 5L5 (PILATUS). Em um ex- 
perimento de difração, as intensidades e po- 
sições das ondas difratadas são medidas, mas 
as fases são perdidas. Isto ocorre porque os 
raios-X deslocam-se na velocidade da luz e, 
dessa maneira, o tempo relativo de chegada 
de todas as ondas espalhadas provenientes 
do cristal ao detector parece ser o mesmo. 
Portanto, as fases deverão ser determinadas 
através de métodos alternativos. 

0 método mais comum de faseamento, 
especialmente para o desenvolvimento de 
novos compostos bioativos, é o de substitui- 
ção molecular. 0 método baseia-se em dois 
fatores: 1) na disponibilidade das coordenadas 
atômicas da estrutura da proteína de interes- 
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se ou a de uma proteína homóloga, e 2) na 
semelhança do padrão de difração da proteí- 
na de interesse com o padrão de difração da 
proteína homóloga. 

Na substituição molecular, medem-se as 
amplitudes de difração do cristal da proteína 
de interesse e "substituem-se" as fases des- 
conhecidas pelas fases já calculadas a partir 
de uma estrutura previamente determinada. 
A questão crucial que determina o sucesso 
deste método é o nível de semelhança entre 
as duas proteínas. Por exemplo, ao determi- 
narmos a estrutura de um complexo ligante- 
proteína, esperamos que a interação do li- 
gante com o sítio de ligação induza apenas 
alterações locais na estrutura do sítio, sem 
consequências maiores para a estrutura geral 
da proteína. 

Nesses estudos, utilizam-se as amplitu- 
des coletadas do cristal contendo o complexo 
proteína-ligante combinadas com as fases da 
proteína sem o ligante, previamente determi- 
nada. Esse método resulta em um mapa de 
densidade eletrônica para a proteína e para o 
ligante suficientemente adequado, permitindo 
a identificação do modo de interação do can- 
didato a fármaco no sítio de ligação do alvo 
macromolecular (Figura 13-13). 

Além da substituição molecular, é im- 
portante mencionar que existem outros mé- 
todos para a determinação das fases, tais 
como a substituição isomórfica e o espalha- 
mento anômalo. Esses métodos são geral- 
mente empregados nos casos em que a 
substituição molecular não é bem sucedida ou 
quando não há uma estrutura relacionada. 

M cipo de densidade eletrônica 

0 mapa de densidade eletrônica é o re- 
sultado final de um experimento de difração 
de raios-X. Por definição, o mapa de densida- 
de eletrônica é a solução da síntese de 
Fourier com as amplitudes das difrações me- 
didas e as fases experimentalmente determi- 
nadas ou calculadas para cada reflexão. A 
partir deste mapa, procede-se para a etapa de 
interpretação e construção do modelo estru- 
tural. 


A 


wm 


Figura 13-13: Estrutura do receptor PPARa 
complexado ao ativador NKS (PDB ID 3KDU). 
(A) Mapa de densidade eletrônica (malha 
verde), indicando o modo de interação do 
ativador NK5. (B) Complexo NKS-PPARa, no 
qual o ligante (esfera e bastões amarelos) 
encontra-se modelado de acordo com o mapa 
de densidade eletrônica. 

Há disponíveis diversas operações que 
podem ser aplicadas aos dados cristalográfi- 
cos com o objetivo de melhorar os mapas de 
densidade eletrônica. Uma estratégia fre- 
quentemente empregada é o achatamento do 
solvente (solvent flattening), que acentua as 
fronteiras entre o solvente e a molécula, ten- 
do como resultado final a otimização do mapa 
de densidade eletrônica. 

Adicionalmente, quando há mais de uma 
molécula na unidade assimétrica, a promedi- 
ação (isto é, interpolação) das suas densida- 
des eletrônicas pode aumentar a relação 
sinal-ruído, melhorando a qualidade do mapa 
final. 

A interpretação do mapa de densidade 
eletrônica é subjetiva, demandando habilidade 
e experiência para que o modelo construído 
explique da melhor maneira possível os dados 
cristalográficos. Um dos fatores que interfe- 
rem nesta interpretação é a resolução, que 
indica o nível de detalhamento com o qual a 
proteína foi determinada. 

Níveis de resolução distintos determi- 
nam diferentes tipos de informação (Tabela 3- 
13 e Figura 12-13). 0 valor médio de resolução 
dos modelos estruturais depositados no PDB 
é 2 ± 1 Â, sendo que aproximadamente 40% 
das macromoléculas depositadas tem reso- 
lução entre 1, 5-2,0 Â (dados de dezembro de 
2012). Portanto, o mapa de densidade eletrô- 
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Tabela 3-13: Relação entre a informação 
estrutural e a resolução de um dado conjunto 
de dados cristalográficos. 


Resolução 

Informação estrutural 

5,0 

Topologia da molécula e elementos 
de estrutura secundária 

3,5 

Curso geral da cadeia polipeptídica 
(traço de Ca) 

3,0 

Cadeias laterais de alguns 
aminoácidos são interpretáveis 

2,5 

Cadeias laterais de todos 
aminoácidos são interpretáveis 

1,5 

Átomos individuais são 
reconhecíveis 

1,0 

Tipos de átomos são identificáveis 


nica nessa faixa de resolução é rico em infor- 
mação estrutural e facilmente interpretável e, 
por conseguinte, o modelo final construído 
tende a apresentar boa qualidade. 

Diversos fatores contribuem para a facilidade de 
interpretação de um mapa de densidade eletrônica. 
Uma vez que a densidade eletrônica é uma média das 
posições atômicas ao longo de todas as células unitá- 
rias que formam o cristal, um mapa de densidade ele- 
trônica nítido depende do perfeito alinhamento entre 
todas as moléculas. 

Um mapa de densidade eletrônica inequívoca cor- 
responde a apenas uma molécula, resíduo, modelo 
peptídico ou ligante que poderá ser modelado nessa 
densidade eletrônica. No entanto, se a densidade ele- 
trônica não é bem definida, mas difusa, ou se houver 
moléculas em diferentes orientações, a interpretação 
se torna desafiadora. 

Por exemplo, a cadeia lateral de um resíduo de 
aminoácido em um peptídeo pode adotar mais de uma 
conformação. Se o número de conformações for pe- 
queno, como dois rotâmero5, essas conformações são 
modeladas com ocupações fracionadas (isto é, 50% 
para cada uma) (Figura 14-13). Se o número de confor- 
mações for significativo, com um número de rotâme- 
ros > 3, a densidade eletrônica para esses rotâmeros 
não será distinguível, e aparecerá como ruído no mapa. 


Um fenômeno semelhante é observado quando um 
ligante interage com apenas algumas moléculas de 
proteína no cristal. Nesse caso, o mapa de densidade 
eletrônica será fraco para esse ligante devido à ocupa- 
ção parcial, sendo portanto de dificil interpretação e 
modelagem. A ocupação dos átomos no cristal é indi- 
cada em termos fracionários, que variam entre □ e 1. 

A incerteza associada à posição média dos átomos 
constituintes do cristal é indicada por um termo deno- 
minado fator B ou fator de temperatura. Quanto maior 
o deslocamento espacial dos átomos no cristal, maior 
será o fator B. Esse termo é dependente da resolução 
do conjunto de dados, apresentando valores médios 
para átomos em uma proteína no intervalo de 20-30 

Á 2 . 

A ocupação e o fator B estão relacionados entre si, 
bem como a resolução do conjunto de dados. Geral- 
mente, em complexos ligante-proteína é comum a ve- 
rificação de fatores B significativamente maiores para 
os átomos do ligante em relação aos átomos da prote- 
ína, fenômeno este que pode indicar uma ocupação 
parcial para a molécula do ligante. 

Mapas de densidades eletrônicas podem 
ser exibidos de diversas maneiras. A repre- 
sentação mais comum para a interpretação 
empregam os coeficientes F 0 F c e 2F 0 F c . 
0 mapa F 0 - F c indica a diferença entre a den- 

A B 


Figura 14-13: Exemplo de dupla conformação 
do mesmo segmento de uma proteína em 
diferentes resoluções (PDB ID 2VB1). (A) 
Dupla conformação em uma estrutura 
refinada na ultraresolução de 0,65 Â. Nota-se 
que as densidades eletrônicas adotam um 
formato de elipsoides, típico em casos de 
ultraresolução. As duplas conformações para 
os resíduos de arginina e histidina foram 
modeladas com precisão. (B) Mesma 
estrutura resolvida a 2,0 Â de resolução. 
Entretanto, apesar da boa qualidade dos 
dados não foi possível modelar as duas 
conformações adotadas por esses resíduos. 
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sidade eletrônica observada (F 0 ) e a calculada 
a partir de um modelo (F c ). Esse mapa, co- 
nhecido como “mapa diferença”, evidencia re- 
giões no modelo que necessitam de átomos, 
isto é, a diferença na densidade eletrônica é 
positiva, e regiões no modelo que apresentam 
excesso de átomos, ou seja, a diferença na 
densidade eletrônica é negativa. 

O mapa 2F 0 - F c apresenta a densidade 
eletrônica com ênfase na diferença entre a 
densidade eletrônica observada (2F 0 ) e a cal- 
culada a partir de um modelo (F c ) (Figura 15- 
13). Durante o processo de refinamento do 
modelo cristalográfico, deve-se avaliar e in- 
terpretar de forma integrada os mapas 2F 0 - 
F c , que privilegiam os fatores de estrutura 
observados, e o mapa diferença F 0 - F c , que 
indica regiões com excesso ou ausência de 
densidade eletrônica. 

13.7. Refinamento, validação e usos 

Os modelos estruturais construídos ba- 
seados em dados cristalográficos devem ser, 
idealmente, modelos precisos. Para tanto, di- 
versos métodos de refinamento são empre- 
gados. 

Uma estratégia comum de refinamento 
aplicada a modelos cristalográficos é o ali- 
nhamento correto entre o modelo estrutural 
e a densidade eletrônica. Esse processo é re- 
alizado de forma sistemática e supervisiona- 
do por ciclos interativos de refinamento no 
espaço real e no espaço recíproco. Para ava- 
liação do protocolo de refinamento, conside- 
ram-se os parâmetros denominados Rfator e 
Rlivre (Rfree). Os ciclos de refinamento são 
conduzidos continuadamente até que ocorra 
convergência dos dados, ou seja, o processo 
de refinamento estende-se até o momento 
em que não se observam variações significa- 
tivas nos valores de Rfator e Rlivre. 

Com o objetivo de auxiliar o refinamen- 
to, restrições estereoquímicas são aplicadas 
para orientar o grau de liberdade conforma- 
cional dos átomos durante as tentativas de 
modelá-los na densidade eletrônica da pro- 
teína. Desse modo, garante-se a não violação 
das geometrias permitidas para os diferentes 



Figura 15-13: Mapa de densidade eletrônica 
2F 0 - F c (malha azul) e F 0 - F c (malha verde 
para densidade positiva e malha vermelha 
para densidade negativa). (A) 0 resíduo de 
arginina foi modelado em uma conformação 
que não condiz com os dados experimentais 
(densidades positivas e negativas no mapa F 0 
- F c ). (B) Rotâmero modelado corretamente 
para o mesmo resíduo de arginina. Nota-se 
que as densidades no mapa diferença 
desapareceram, indicando o acerto no 
posicionamento do rotâmero de arginina. 
Além disso, uma nova molécula de água (cruz 
vermelha) também foi corretamente 
modelada após seleção do rotâmero correto 
para o resíduo. 

grupos químicos, bem como impede-se que a 
molécula adote conformações de alta ener- 
gia. Essas restrições são baseadas no conhe- 
cimento estrutural de pequenas moléculas 
elucidadas a alta resolução e utilizadas como 
subestruturas representativas da macromo- 
lécula (Figura 16-13). 

O sucesso no processo de refinamento á indicado 
pelo parâmetro Rfator, que consiste na medida de con- 
cordância entre o modelo construído e os dados expe- 
rimentais. 0 valor de Rfator determina a diferença 
entre as amplitudes das reflexões calculadas derivadas 
a partir do modelo e os valores experimentais obtidos 
a partir do experimento difração de raios-X. Portanto, o 
valor de Rfator indica a qualidade do ajuste do modelo 
a densidade eletrônica, bem como a qualidade dos da- 
dos cristalográficos. 

Para proteínas, os valores de Rfator observados 
encontram-se no intervalo de 15 a 20% para conjuntos 
de dados entre 1,8 e 2,5 Á de resolução (Figura 17-13). 
Esses números sugerem que de 75 a 80% dos dados 
de espalhamento, provenientes do cristal da proteína, 
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Figura 16-13: Visão geral das etapas envolvidas na determinação de uma estrutura de proteína 
por métodos cristalográficos. 


podem ser representados ou explicados pelo modelo 
estrutural. 

É importante mencionar que um modelo estrutural 
de boa qualidade pode apresentar pequenas falhas, 
provenientes de erros durante a aquisição dos dados 
cristalográficos, da incapacidade de se modelar regiões 
desordenadas na estrutura, de diferentes conforma- 
ções e de regiões flexíveis, principalmente regiões de 
alças. 

Devido à grande influência das fases 
calculadas (F c ) sobre as amplitudes das re- 
flexões (F 0 ) na determinação da densidade 
eletrônica final, o valor de Rfator pode ser 
manipulado e levar ao sobreajuste do modelo 
estrutural. 

Visando-se manter a precisão e a vera- 
cidade do modelo estrutural, uma estratégia 
comumente utilizada consiste no cálculo do 
Rfator a partir de dados que não foram utili- 
zados no processo de refinamento e, portan- 
to, não foram influenciados pelas fases 
calculadas, o que pode ser chamado de vali- 
dação externa ou Rlivre. 

0 Rlivre é calculado a partir de 5 a 10% 
das reflexões, selecionadas de modo aleatório 
e excluídas do processo de refinamento. De- 


vido à natureza incompleta dos dados utiliza- 
dos para o cálculo do Rlivre, este é frequen- 
temente maior do que o valor do Rfator em 
cerca de 3-5%, no caso de estruturas bem 
refinadas. Nas etapas iniciais de refinamento, 
esse número pode ser maior que 10%. 

Uma vez que as moléculas de proteína 
são formas irregulares, durante o processo 
de formação dos cristais espaços e canais 
entre as cadeias polipeptídicas são preenchi- 
dos com solvente e outros compostos prove- 
nientes da solução de cristalização, 
incluindo-se água, íons e agente crioprotetor, 
dentre outros. 

O componente mais importante do sol- 
vente são as moléculas de água ligadas à 
proteína, encontradas em localizações dis- 
cretas e, geralmente, na superfície da macro- 
molécula. As moléculas de água são 
modeladas de acordo com um procedimento 
que envolve a identificação de características 
específicas das densidades eletrônicas que 
não são atribuídas à proteína, tais como a al- 
tura do pico de densidade eletrônica e a posi- 
ção da molécula de água em relação aos 
átomos da proteína, com os quais poderá 
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Figura 17-13: Critérios sugeridos para 

avaliação da qualidade de modelos de 
estruturas cristalográficas de 

macromoléculas, de adequado (verde) a ina- 
dequado (vermelho). Diferença entre o Rlivre 
e Rfator > 7% indica baixa correlação entre 
os dados experimentais e o modelo 
estrutural. Entretanto, se essa diferença for < 
2% sugere-se que o conjunto de dados esteja 
demasiadamente “preso”. Valores de RMSD 
(ver capítulo 8) indicam a presença de erros 
no modelo. Por outro lado, valores 
excessivamente baixos de RMSD (por 
exemplo, 0,004 Â) indicam excesso nas 
restrições estereoquímicas, com maior peso 
à otimização da geometria em detrimento dos 
dados de difração experimental durante os 
ciclos de refinamento. 

formar ligações de hidrogênio. 

Frequentemente, densidades eletrônicas 
próximas à cadeia polipeptídica são atribuídas 
a íons provenientes das soluções de cristali- 
zação, como sódio, cálcio e amónio. Em geral, 
essas densidades apresentam características 
específicas como formas, estado de coorde- 
nação ou propriedades eletrônicas que auxili- 
am a identificação correta do íon e o seu 
modo de ligação. 

0 número de moléculas de águas que podem ser 
identificadas e associadas a um determinado modelo 
estrutural irá depender da qualidade do modelo e dos 
dados cristalográficoa (ou seja, da sua resolução). Por 
exemplo, em estruturas de média resolução (2,5 a 3,0 
Â) o número de moléculas de água esperado é baixo, 
pois apenas aquelas moléculas que estão fortemente 
associadas à proteína (usualmente localizadas no sítio 
ativo ou em outras regiões funcionais) podem ser cor- 


retamente posicionadas. 

Já em estruturas de alta resolução (1,0-2, □ Â), po- 
de-se identificar um número significativo de moléculas 
de água na superfície da proteína com boa precisão. 
Contudo, é importante mencionar que a utilização de 
moléculas de água em demasia em um modelo final 
pode mascarar regiões da densidade eletrônica e indu- 
zir a erros de interpretação, como a atribuição de 
águas a densidades que correspondem a cadeias late- 
rais dos resíduos, outros tipos de solventes ou ligantes. 

Como o Rfator pode ser interpretado como uma 
medida de quanto a densidade eletrônica é satisfeita, 
moléculas de água mal posicionadas podem diminuir o 
valor para o Rfator, porém, sem melhorar a acurácia 
do modelo. Nesses casos, a comparação entre os va- 
lores de Rfator e Rlivre é fundamental para avaliar a 
possibilidade de sobreajuste do modelo (diferença en- 
tre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta va- 
lores representativos das estatísticas de refinamento 
para um bom modelo cristalográfico. 

Uma estratégia frequentemente em- 
pregada para a identificação de erros de in- 
terpretação em modelos estruturais 
baseia-se nas características geométricas dos 
aminoácidos e das estruturas 2 árias (como 
distâncias, ângulos de ligação e diedros <p e y, 
ver capítulo 2). 

Às distâncias interatômicas e ângulos de 
ligação dos resíduos de aminoácidos são bem 
conhecidos e empregados como guia para 
avaliação de modelos estruturais. A medida é 
expressa pelo valor de RM5D para todas as 
distâncias e ângulos de ligação na proteína em 
estudo. 

As relações entre os ângulos diedrais 
para os átomos da cadeia principal que con- 
tém estrutura 2 ária foram analisadas em ter- 
mos de valores permitidos e proibidos em um 
gráfico conhecido como Gráfico de Rama- 
chandran (Figura 18-13, ver capítulo 2). 

Contudo, faz-se necessário salientar que 
alguns resíduos podem localizar-se fora das 
regiões permitidas por diferentes razões. Por 
exemplo, o resíduo de glicina, devido à ausên- 
cia de uma cadeia lateral volumosa, pode ser 
encontrado fora das regiões permitidas. Por 
outro lado, o resíduo de prolina pode locali- 
zar-se em regiões proibidas em função de 
isomeria estrutural (isto é, isômeros c/s e 
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Tabela 4-13: Exemplo de estatísticas de 
refinamento de uma estrutura de boa 
qualidade. Dados referentes aos estudos 
cristalográficos para a determinação da 
estrutura celobiohidrolase I de Trichoderma 
harzianum (PDB ID 2Y0K). 


Refinamento 


Resolução 45,3-1,67 (1,71-1,67) 

Rfator/Rlivre (%) 

14,6/17,3 

Número de átomos 

Proteína 

3193 

N-acetil-D-GlcN 

42 

PEG 

23 

Água 

562 

Fator B (Â2) 

Proteína 

10,3 

N-acetil-D-GlcN 

29,7 

PEG 

30,4 

Água 

24,2 

RMSD 

Tamanho de ligação (Â) 

0,011 

Ângulo de ligação ( Q ) 

1,331 


trans). 

Ocasionalmente, se a resolução for alta 
o suficiente para permitir uma interpretação 
precisa, um resíduo pode aparecer fora dos 
limites aceitáveis (Figura 18-13). Exemplos 
como esse não são incomuns e, portanto, é 
fortemente recomendada a inspeção criterio- 
sa de todos os resíduos de uma proteína, 
principalmente aqueles indicados em regiões 
não favoráveis no gráfico de Ramachandran. 

Planejamento baseado na estrutura 
do receptor 

Os avanços nas ciências biomédicas vem 
contribuindo significativamente para a identi- 


ficação e validação de novos alvos molecula- 
res de interesse terapêutico. Alem disso, ini- 
ciativas como os programas genoma e 
proteoma de vários organismos têm forneci- 
do dados importantes para o detalhamento 
das bases moleculares responsáveis pela es- 
trutura e função de biomoléculas. 

Simultaneamente, o aprimoramento das 
técnicas de determinação estrutural e análise 
de moléculas, como a cristalografia de rai- 
os-X, ressonância magnética nuclear (RMN) e 
a calorimetria, têm contribuído substancial- 
mente para a melhor compreensão dos com- 
ponentes energéticos e espaciais que 
compõem as interações entre fármacos e re- 
ceptores. 

Nas últimas décadas, os métodos cris- 
talográficos ganharam enorme destaque co- 
mo estratégia útil para o planejamento de 
fármacos. A sua aplicação vai desde os estu- 
dos em pesquisa básica, visando à elucidação 
das características estruturais e funcionais de 
alvos moleculares, até a pesquisa aplicada, 
caracterizada pela aplicação do conhecimento 
estrutural para a identificação de moléculas 
com atividade biológica e otimização de pro- 
priedades farmacodinâmicas e farmacociné- 
ticas. 

Atualmente, um dos maiores desafios 
na área de planejamento de novos fármacos á 
aumentar a taxa de sucesso na identificação 
de novas entidades químicas (NCEs, new 
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Figura 18-13: Gráfico de Ramachandran 

representativo para uma estrutura de boa 
qualidade. Destaque para o resíduo de serina 
que, apesar de localizado em um uma região 
proibida, é perfeitamente corroborado pelo 
mapa de densidade eletrônica. 
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Chemical entitie s). Nesse contexto, destaca-se 
a estratégia de grande impacto denominada 
planejamento baseado na estrutura do re- 
ceptor (5BDD, Structure Based Drug Design). 
Os métodos de 5BDD se baseiam no conheci- 
mento da informação 3D da macromolécula 
alvo, que geralmente é obtida de estruturas 
determinadas por cristalografia de raios-X, 
por RMN ou através de modelagem por ho- 
mologia. 

As estratégias de 5BDD têm como prin- 
cípio o entendimento do mecanismo que leva 
ao aparecimento de doenças, aliado à identifi- 
cação de alvos moleculares que forneçam 
novas oportunidades para o desenvolvimento 
de NCEs. O planejamento de fármacos utili- 
zando estruturas 3D de biomoléculas pro- 
porcionou o desenvolvimento de uma 
importante variedade de inovações terapêuti- 
cas, trazendo benefícios notáveis à saúde hu- 
mana das mais diversas populações mundiais. 

A informação sobre o modo de ligação 
de substâncias bioativas, levando em conta a 
complementaridade de interações entre li- 
gante e receptor, é de grande utilidade no 
planejamento de candidatos a novos fárma- 
cos. A partir da obtenção e avaliação farma- 
cológica de séries de compostos sintéticos, 
pode-se estudar a relação entre as suas dife- 
renças estruturais e as atividades medidas 
(relação estrutura atividade), estabelecendo 
pressupostos úteis na elaboração de estraté- 
gias de modificação molecular. 

Devido à complexidade e à quantidade 
de informação gerada, métodos de modela- 
gem molecular (como ancoramento, modela- 
gem comparativa e dinâmica molecular, vistos 
em capítulos anteriores) são constantemente 
empregados para caracterizar as interações 
predominantes entre ligantes e receptores 
biológicos. Os compostos bioativos mais pro- 
missores nas diversas etapas de investigação 
podem ser então submetidos a ensaios cris- 
talográficos, visando tanto validar os resulta- 
dos computacionais quanto refinar e ampliar 
o nível de informação molecular. Um dos 
principais exemplos de doenças que se bene- 
ficiaram destas técnicas envolve o tratamen- 
to da AIDS, causada pelo vírus da 


imunodeficiência humana (HIV). 

Devido à função central exercida no de- 
senvolvimento do vírus, a protease do HIV 
tornou-se um alvo prioritário de muitas in- 
dústrias farmacêuticas. As primeiras investi- 
gações para a identificação de inibidores da 
protease de HIV se basearam em dados es- 
truturais de um modelo teórico construído 
com o auxílio de métodos de modelagem 
comparativa. A primeira estrutura cristalo- 
gráfica da protease de HIV foi resolvida em 
sua forma nativa no final da década de 1980. 
Subsequentemente, mais de 250 complexos 
entre inibidores e esta protease foram obti- 
dos, fornecendo bases estruturais sólidas 
para o desenvolvimento de uma série de fár- 
macos, ainda em uso terapêutico. 

O planejamento de inibidores da protea- 
se de HIV é um dos exemplos de maior su- 
cesso na aplicação dos métodos 
experimentais e computacionais ao desenvol- 
vimento de novos fármacos. O desenvolvi- 
mento do peptideomimético saquinavir 
(Invirase®, Roche), primeiro inibidor da prote- 
ase de HIV aprovado pelo FDA (Food and Drug 
Administration ) nos Estados Unidos para o 
tratamento da AIDS, em 1995, teve sua ori- 
gem em dados cristalográficos obtidos com 
os inibidores peptídeos desta protease (Figura 
19-13). 

Os modelos de interação, obtidos por cristalografia, 
indicavam que a substituição isostérica da ligação amí- 
dica central por um grupo hidroxietilamina estaria re- 
lacionada com o aumento de potência e seletividade. 
Isto motivou a síntese e avaliação bioquímica de uma 
série de análogos, que confirmaram esta hipótese. 

A etapa seguinte dos estudos consistiu na avaliação 
do tamanho da sequência peptídica para uma ótima ini- 
bição. Estudos de modelagem molecular foram em- 
pregados para priorizar a síntese de derivados com 
tamanhos distintos de cadeia. Aliados a testes biológi- 
cos, estes experimentos mostraram que o tamanho 
mínimo da cadeia peptídica deveria ser de 5 resíduos de 
aminoácidos. 

Em seguida, foi investigada a influência da variação 
das cadeias laterais nas unidades peptídicas. Vários 
análogos foram obtidos, embora nenhum tenha apre- 
sentado melhora considerável da potência inibitória. 
Por outro lado, a substituição do resíduo de prolina na 
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Figura 19-13: (A) Homodímero da protease de 
HIV-1 em complexo com inibidor saquinavir 
(PDB ID 1FB7). (B) Estrutura química do 
saquinavir. (C) Detalhes do modo de ligação 
do inibidor saquinavir no sítio ativo da enzima. 

molécula do inibidor por grupos piperidina ou 3-carbo- 
nil-decahidro-isoquinolina (DIQ) acarretou em uma me- 
lhora significativa da potência inibitória. 

Os modelos de interação sugeriram que a maior 
potência do derivado DIQ (saquinavir, Figura 19B-13) es- 
taria relacionada a um menor grau de liberdade con- 
formacional conferido por este substituinte, indicando 
um favorecimento entrópico para a energia livre de li- 
gação. Posteriormente, a análise do complexo cristalo- 
gráfico saquinavir-protease revelou que a porção DIQ 
do inibidor adotava uma conformação de energia míni- 
ma, característica de grupos cíclicos saturados, confir- 
mando o modo de ligação predito (Figura 19C-13). 

As informações obtidas no desenvolvi- 
mento do saquinavir serviram de base para o 
planejamento de novos inibidores da protease 
de HIV, tais como ritonavir (Norvir®, Abbott), 
indinavir (Crixivan®, Merck Sharp & Dohme) e 
nelfinavir (Viracept®, Agouron Phamaceu- 
ticals). 

Genoma estrutural 

Os sucessos conquistados pelos proje- 
tos genômicos deram um importante suporte 
à abordagem do tipo “larga escala” na ativi- 


dade científica. No campo da cristalografia, as 
ideias genômicas foram extrapoladas procu- 
rando retornar à sociedade um conjunto de 
informações representativas da biodiversida- 
de do universo proteico, gerando estruturas 
tridimensionais em nível atômico para a maior 
parte das proteínas facilmente obtidas à par- 
tir do conhecimento de suas sequências de 
DNA (www.nigms.nih.gov / Initiatives / 
P5l.htm). 

A escala dessa abordagem á estabelecida, inicial- 
mente, na definição e seleção de sequências de ami- 
noácidos mais susceptíveis à determinação estrutural, 
procurando-se evitar proteínas mais “problemáticas”. 

Contudo, o esforço empregado na de- 
terminação do genoma estrutural é significa- 
tivamente maior do que no sequenciamento. 
Isto se deve à grande diferença de complexi- 
dade dos métodos envolvidos e à variabilida- 
de no comportamento dos alvos proteicos em 
diferentes estágios do processo de determi- 
nação estrutural em larga escala. 

Uma vez que a estrutura tridimensional 
de uma proteína é muito mais conservada que 
sua sequência de aminoácidos, o conheci- 
mento de seu enovelamento torna-se uma 
ferramenta muito valiosa para se estudar e 
descobrir relações evolucionárias imperceptí- 
veis em nível de sequência. Essas similarida- 
des estruturais podem, por exemplo, sugerir 
propriedades funcionais às proteínas de fun- 
ções ainda desconhecidas. 

A contribuição mais prontamente visível 
da genômica estrutural é a rápida expansão 
do número de estruturas de proteínas dispo- 
níveis no PDB e, geralmente, a um custo re- 
duzido devido à eficiência e otimização das 
técnicas desenvolvidas em centros especiali- 
zados. 

Uma seleção adequada de alvos é fun- 
damental para assegurar que as estruturas 
resolvidas por esses centros sejam realmente 
valiosas para toda a comunidade científica e 
industrial, seja devido ao interesse intrínseco 
das proteínas estudadas, ou visando uma 
melhoria do mapeamento do universo protei- 
co, fornecendo modelos para novos estudos 
de modelagem comparativa (Figura 20-13). 

Nesse contexto, uma segunda contri- 
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buição importante dos projetos de genômica 
estrutural para a comunidade científica é o 
desenvolvimento de métodos e tecnologias 
para a produção eficiente de proteínas e de- 
terminação estrutural, que possam ser ado- 
tados em laboratórios de pesquisa menores 
contribuindo, assim, com o avanço da área ao 
retor do mundo. 



Figura 20-13: Fluxograma representativo de 
um projeto de genoma estrutural. 

13.7. Conceitos-chave 

Cristal: sólido no qual os átomos constituintes 
estão organizados num padrão tridimensi- 
onal bem definido, que se repete no espa- 
ço, formando uma estrutura com uma 
geometria específica. 

Cristalização: processo de separação sólido-lí- 
quido no qual há transferência de massa 
de um soluto a partir de uma solução lí- 
quida supersaturada para uma fase sólida 
cristalina pura. 

Cromatografia: método de separação e identifi- 
cação dos componentes em uma mistura. 
Ampalmente empregado para a purificação 
de proteínas. 

Difração: fenômeno de interação entre a radia- 
ção eletromagnética com a matéria com 
consequente dispersão dessa radiação. 

Expressão em sistema heterólogo: expressão de 
um gene (ou parte dele) em um organis- 


mo hospedeiro, o qual naturalmente não 
possui este gene (ou fragmento de gene). 

Luz síncrotron: acelerador de partículas poligo- 
nal que produz luz usando eletroímãs po- 
derosos e ondas de radiofrequência para 
acelerar elétrons a uma velocidade próxi- 
ma à da luz em um anel de armazena- 
mento. 

Mapa de densidade eletrônica: Região de maior 
probabilidade de se encontrar os elétrons. 
O mapa de densidade eletrônica é o re- 
sultado final de um experimento de difra- 
ção de raios-X. A análise detalhada do 
mapa orienta a construção do modelo es- 
trutural da proteína. 

Padrão de difração: padrão produzido a partir de 
uma estrutura tridimensional periódica, 
como átomos de um cristal, que contém 
informação sobre a separação dos planos 
cristalográficos. A análise do padrão de 
difração permite que se possa deduzir a 
estrutura do cristal. 

PDB: banco de dados de proteínas de acesso li- 
vre em http://www.rcsb.org. 

Raios-X: radiação eletromagnética com compri- 
mento de onda entre 0,01-10 nm (0,1-100 

Â). 

Refinamento: processo supervisionado de cons- 
trução e ajuste do modelo estrutural aos 
dados de difração de raios-X. 

Sistema de clonagem LIC: estratégia em biolo- 
gia molecular para a clonagem indepen- 
dente de ligação capaz de aumentar a 
taxa de sucesso na obtenção de proteína 
expressa na forma solúvel, com alta pure- 
za e em grande quantidade. 

Solução de cristalização: solução que favorece a 
cristalização de proteínas constituída de 
componentes como agentes tamponantes, 
aditivos que facilitam o processo de cris- 
talização e agentes precipitantes. 
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